論文の概要: NICP: Neural ICP for 3D Human Registration at Scale
- arxiv url: http://arxiv.org/abs/2312.14024v2
- Date: Sat, 30 Mar 2024 12:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:35:39.264656
- Title: NICP: Neural ICP for 3D Human Registration at Scale
- Title(参考訳): NICP: 大規模人間の3次元登録のためのニューラルICP
- Authors: Riccardo Marin, Enric Corona, Gerard Pons-Moll,
- Abstract要約: 3Dヒューマンポイントクラウドへのテンプレートのアライメントは、アニメーションや再構築、教師付き学習パイプラインの有効化といったタスクにおいて、長年の課題である。
最近のデータ駆動手法は予測された表面の対応を利用するが、様々なポーズ、アイデンティティ、ノイズに対して堅牢ではない。
ダウンストリームアプリケーションのスケーラビリティを制限し、3Dヒューマン登録の標準と見なす方法はない。
本研究では,数千の形状と10以上の異なるデータソースにまたがる一般化とスケールを行うパイプラインであるNSRを提案する。
- 参考スコア(独自算出の注目度): 35.631505786332454
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning a template to 3D human point clouds is a long-standing problem crucial for tasks like animation, reconstruction, and enabling supervised learning pipelines. Recent data-driven methods leverage predicted surface correspondences; however, they are not robust to varied poses, identities, or noise. In contrast, industrial solutions often rely on expensive manual annotations or multi-view capturing systems. Recently, neural fields have shown promising results. Still, their purely data-driven and extrinsic nature does not incorporate any guidance toward the target surface, often resulting in a trivial misalignment of the template registration. Currently, no method can be considered the standard for 3D Human registration, limiting the scalability of downstream applications. In this work, we propose NSR, a pipeline that, for the first time, generalizes and scales across thousands of shapes and more than ten different data sources. Our essential contribution is NICP, an ICP-style self-supervised task tailored to neural fields. NICP takes a few seconds, is self-supervised, and works out of the box on pre-trained neural fields. We combine it with a localized Neural Field trained on a large MoCap dataset. NSR achieves the state of the art over public benchmarks, and the release of its code and checkpoints will provide the community with a powerful tool useful for many downstream tasks like dataset alignments, cleaning, or asset animation.
- Abstract(参考訳): 3Dヒューマンポイントクラウドへのテンプレートのアライメントは、アニメーションや再構築、教師付き学習パイプラインの有効化といったタスクにおいて、長年の課題である。
最近のデータ駆動手法は予測された表面の対応を利用するが、様々なポーズ、アイデンティティ、ノイズに対して堅牢ではない。
対照的に、産業ソリューションは高価な手動アノテーションやマルチビューキャプチャシステムに依存していることが多い。
近年、ニューラルフィールドは有望な結果を示している。
それでも、純粋にデータ駆動で外在的な性質は、ターゲット表面へのガイダンスを一切含まないため、テンプレート登録の簡単なミスアライメントが生じることが多い。
現在、ダウンストリームアプリケーションのスケーラビリティを制限し、3Dヒューマン登録の標準と見なす方法はない。
本研究では,数千の形状と10以上の異なるデータソースにまたがる一般化とスケールを行うパイプラインであるNSRを提案する。
我々の重要な貢献は、ICPスタイルの自己教師型タスクであるNICPである。
NICPは数秒で自己管理され、トレーニング済みのニューラルネットワーク上ですぐに動作します。
大規模なMoCapデータセットでトレーニングされた局所的ニューラルネットワークと組み合わせる。
NSRは、公開ベンチマークの最先端を実現し、コードとチェックポイントのリリースにより、データセットアライメントやクリーニング、アセットアニメーションなど、多くの下流タスクに有用な強力なツールがコミュニティに提供する。
関連論文リスト
- Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - MLGCN: An Ultra Efficient Graph Convolution Neural Model For 3D Point
Cloud Analysis [4.947552172739438]
グラフニューラルネットワーク(GNN)ブロックを用いて,特定の局所レベルの3次元点雲から特徴を抽出する,MLGCN(Multi-level Graph Convolution Neural)モデルを提案する。
提案手法は,浮動小数点演算(FLOP)の最大1000倍の削減と,ストレージ要求の大幅な削減を図りながら,最先端モデルに匹敵する結果をもたらす。
論文 参考訳(メタデータ) (2023-03-31T00:15:22Z) - Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。
具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。
提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文 参考訳(メタデータ) (2023-01-21T04:08:46Z) - ALSO: Automotive Lidar Self-supervision by Occupancy estimation [70.70557577874155]
本稿では,ポイントクラウド上で動作している深層知覚モデルのバックボーンを事前学習するための自己教師型手法を提案する。
中心となる考え方は、3Dポイントがサンプリングされる表面の再構成であるプリテキストタスクでモデルをトレーニングすることである。
直感的には、もしネットワークがわずかな入力ポイントのみを考慮し、シーン表面を再構築できるなら、おそらく意味情報の断片をキャプチャする。
論文 参考訳(メタデータ) (2022-12-12T13:10:19Z) - Self-Supervised Learning with Multi-View Rendering for 3D Point Cloud
Analysis [33.31864436614945]
本稿では,3次元点雲モデルのための新しい事前学習手法を提案する。
我々の事前訓練は、局所的なピクセル/ポイントレベルの対応損失と、大域的な画像/ポイントの雲のレベル損失によって自己管理される。
これらの改善されたモデルは、さまざまなデータセットや下流タスクにおける既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2022-10-28T05:23:03Z) - PointAttN: You Only Need Attention for Point Cloud Completion [89.88766317412052]
ポイント・クラウド・コンプリート(Point cloud completion)とは、部分的な3次元ポイント・クラウドから3次元の形状を完成させることである。
そこで我々は,kNNを除去するために,ポイントクラウドをポイント単位に処理する新しいニューラルネットワークを提案する。
提案するフレームワークであるPointAttNはシンプルで簡潔で効果的であり、3次元形状の構造情報を正確に捉えることができる。
論文 参考訳(メタデータ) (2022-03-16T09:20:01Z) - Semi-supervised 3D Object Detection via Temporal Graph Neural Networks [17.90796183565084]
3Dオブジェクト検出は、自動運転やその他のロボット工学応用において重要な役割を果たす。
本研究では,3次元物体検出器の半教師付き学習により,大量の未ラベルのクラウドビデオを活用することを提案する。
本手法は,難解な nuScenes と H3D ベンチマーク上での最先端検出性能を実現する。
論文 参考訳(メタデータ) (2022-02-01T02:06:54Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Self-Supervised Feature Extraction for 3D Axon Segmentation [7.181047714452116]
既存の学習ベースの3D脳画像の軸索を自動的に追跡する手法は、手動で注釈付けされたセグメンテーションラベルに依存することが多い。
本研究では、軸索の管状構造を利用してラベルのないデータから特徴抽出器を構築する自己教師付き補助タスクを提案する。
単一ニューロンであるJanliaデータセットであるShielD PVGPeデータセットとBigNeuron Projectの両方で,3次元U-Netモデルよりも優れたセグメンテーション性能を示す。
論文 参考訳(メタデータ) (2020-04-20T20:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。