論文の概要: Geometric Awareness in Neural Fields for 3D Human Registration
- arxiv url: http://arxiv.org/abs/2312.14024v1
- Date: Thu, 21 Dec 2023 16:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 14:08:48.727576
- Title: Geometric Awareness in Neural Fields for 3D Human Registration
- Title(参考訳): 3次元人間登録のための神経野の幾何学的認識
- Authors: Riccardo Marin, Enric Corona, Gerard Pons-Moll
- Abstract要約: 3Dヒューマンポイントクラウドへのテンプレートのアライメントは、アニメーションや再構築、教師付き学習パイプラインの有効化といったタスクにおいて、長年の課題である。
近年のデータ駆動方式は予測された表面対応を利用するが、様々なポーズや分布に対して頑健ではない。
本研究では, 対象表面上の局所的なSMPL頂点への方向を予測する新しいニューラルネットワークモデルであるLoVDと, テスト時に, バックボーンを洗練し, ターゲット形状を利用する最初の自己教師型タスクであるINTの2つの解を提案する。
- 参考スコア(独自算出の注目度): 40.04624169710299
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning a template to 3D human point clouds is a long-standing problem
crucial for tasks like animation, reconstruction, and enabling supervised
learning pipelines. Recent data-driven methods leverage predicted surface
correspondences; however, they are not robust to varied poses or distributions.
In contrast, industrial solutions often rely on expensive manual annotations or
multi-view capturing systems. Recently, neural fields have shown promising
results, but their purely data-driven nature lacks geometric awareness, often
resulting in a trivial misalignment of the template registration. In this work,
we propose two solutions: LoVD, a novel neural field model that predicts the
direction towards the localized SMPL vertices on the target surface; and INT,
the first self-supervised task dedicated to neural fields that, at test time,
refines the backbone, exploiting the target geometry. We combine them into
INLoVD, a robust 3D Human body registration pipeline trained on a large MoCap
dataset. INLoVD is efficient (takes less than a minute), solidly achieves the
state of the art over public benchmarks, and provides unprecedented
generalization on out-of-distribution data. We will release code and
checkpoints in \url{url}.
- Abstract(参考訳): 3Dヒューマンポイントクラウドへのテンプレートのアライメントは、アニメーションや再構築、教師付き学習パイプラインの有効化といったタスクにおいて、長年の課題である。
近年のデータ駆動方式は予測された表面対応を利用するが、様々なポーズや分布に対して堅牢ではない。
対照的に、工業ソリューションは高価な手動アノテーションやマルチビューキャプチャシステムに依存することが多い。
近年、ニューラルフィールドは有望な結果を示しているが、純粋にデータ駆動の性質は幾何学的認識を欠いているため、テンプレート登録を軽視することが多い。
本研究では, 対象表面上の局所的なSMPL頂点への方向を予測する新しいニューラルネットワークモデルであるLoVDと, テスト時に, バックボーンを洗練し, ターゲット形状を利用する最初の自己教師型タスクであるINTの2つの解を提案する。
InLoVDは、大規模なMoCapデータセットに基づいてトレーニングされた、堅牢な3D人体登録パイプラインです。
INLoVDは効率的(1分以内)で、公開ベンチマークよりも技術の現状をしっかりと達成し、配布外データに対する前例のない一般化を提供する。
コードとチェックポイントを \url{url} でリリースします。
関連論文リスト
- Efficient 3D Recognition with Event-driven Spike Sparse Convolution [15.20476631850388]
スパイキングニューラルネットワーク(SNN)は3次元時間的特徴を抽出するエネルギー効率の良い方法を提供する。
本稿では3次元点雲をスパーススパイクトレイン空間に符号化するスパイクVoxel Coding(SVC)方式を提案する。
本稿では,3次元スパース・クラウドの特徴を効率的に抽出するスパイクスパース・コンボリューション(SSC)モデルを提案する。
論文 参考訳(メタデータ) (2024-12-10T09:55:15Z) - MLGCN: An Ultra Efficient Graph Convolution Neural Model For 3D Point
Cloud Analysis [4.947552172739438]
グラフニューラルネットワーク(GNN)ブロックを用いて,特定の局所レベルの3次元点雲から特徴を抽出する,MLGCN(Multi-level Graph Convolution Neural)モデルを提案する。
提案手法は,浮動小数点演算(FLOP)の最大1000倍の削減と,ストレージ要求の大幅な削減を図りながら,最先端モデルに匹敵する結果をもたらす。
論文 参考訳(メタデータ) (2023-03-31T00:15:22Z) - Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。
具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。
提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-01-21T04:08:46Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Self-Supervised Learning with Multi-View Rendering for 3D Point Cloud
Analysis [33.31864436614945]
本稿では,3次元点雲モデルのための新しい事前学習手法を提案する。
我々の事前訓練は、局所的なピクセル/ポイントレベルの対応損失と、大域的な画像/ポイントの雲のレベル損失によって自己管理される。
これらの改善されたモデルは、さまざまなデータセットや下流タスクにおける既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T05:23:03Z) - PointAttN: You Only Need Attention for Point Cloud Completion [89.88766317412052]
ポイント・クラウド・コンプリート(Point cloud completion)とは、部分的な3次元ポイント・クラウドから3次元の形状を完成させることである。
そこで我々は,kNNを除去するために,ポイントクラウドをポイント単位に処理する新しいニューラルネットワークを提案する。
提案するフレームワークであるPointAttNはシンプルで簡潔で効果的であり、3次元形状の構造情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2022-03-16T09:20:01Z) - Semi-supervised 3D Object Detection via Temporal Graph Neural Networks [17.90796183565084]
3Dオブジェクト検出は、自動運転やその他のロボット工学応用において重要な役割を果たす。
本研究では,3次元物体検出器の半教師付き学習により,大量の未ラベルのクラウドビデオを活用することを提案する。
本手法は,難解な nuScenes と H3D ベンチマーク上での最先端検出性能を実現する。
論文 参考訳(メタデータ) (2022-02-01T02:06:54Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - 2nd Place Scheme on Action Recognition Track of ECCV 2020 VIPriors
Challenges: An Efficient Optical Flow Stream Guided Framework [57.847010327319964]
我々は、小さなデータセットでモデルをスクラッチからトレーニングできるデータ効率フレームワークを提案する。
具体的には、3D中心差分畳み込み演算を導入することで、新しいC3Dニューラルネットワークベースの2ストリームフレームワークを提案する。
提案手法は,大規模データセット上で事前学習したモデルがなくても,有望な結果が得られることを実証した。
論文 参考訳(メタデータ) (2020-08-10T09:50:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。