論文の概要: Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning
of 3D Pose
- arxiv url: http://arxiv.org/abs/2110.14213v1
- Date: Wed, 27 Oct 2021 06:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 01:13:33.992966
- Title: Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning
of 3D Pose
- Title(参考訳): 3次元ポーズの半教師付き少数ショット学習のためのニューラルビュー合成とマッチング
- Authors: Angtian Wang, Shenxiao Mei, Alan Yuille, Adam Kortylewski
- Abstract要約: 本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。
我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
- 参考スコア(独自算出の注目度): 10.028521796737314
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of learning to estimate the 3D object pose from a few
labelled examples and a collection of unlabelled data. Our main contribution is
a learning framework, neural view synthesis and matching, that can transfer the
3D pose annotation from the labelled to unlabelled images reliably, despite
unseen 3D views and nuisance variations such as the object shape, texture,
illumination or scene context. In our approach, objects are represented as 3D
cuboid meshes composed of feature vectors at each mesh vertex. The model is
initialized from a few labelled images and is subsequently used to synthesize
feature representations of unseen 3D views. The synthesized views are matched
with the feature representations of unlabelled images to generate pseudo-labels
of the 3D pose. The pseudo-labelled data is, in turn, used to train the feature
extractor such that the features at each mesh vertex are more invariant across
varying 3D views of the object. Our model is trained in an EM-type manner
alternating between increasing the 3D pose invariance of the feature extractor
and annotating unlabelled data through neural view synthesis and matching. We
demonstrate the effectiveness of the proposed semi-supervised learning
framework for 3D pose estimation on the PASCAL3D+ and KITTI datasets. We find
that our approach outperforms all baselines by a wide margin, particularly in
an extreme few-shot setting where only 7 annotated images are given.
Remarkably, we observe that our model also achieves an exceptional robustness
in out-of-distribution scenarios that involve partial occlusion.
- Abstract(参考訳): 本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習問題を考察する。
学習フレームワークであるneural view synthesis and matching(ニューラルビュー合成とマッチング)は、目立たない3dビューとオブジェクトの形状、テクスチャ、照明、シーンコンテキストといった微妙なバリエーションにもかかわらず、ラベル付き画像から確実に3dポーズアノテーションを転送できます。
私たちのアプローチでは、オブジェクトは各メッシュ頂点で特徴ベクトルからなる3d立方体メッシュとして表現されます。
モデルはラベル付き画像から初期化され、その後、見えない3Dビューの特徴表現を合成するために使用される。
合成されたビューは、未ラベル画像の特徴表現と一致し、3Dポーズの擬似ラベルを生成する。
擬似ラベル付きデータは、各メッシュ頂点の特徴がオブジェクトのさまざまな3dビューでより不変になるように、特徴抽出器を訓練するために使用される。
本モデルでは,特徴抽出器の3次元ポーズ不変度の増加と,ニューラルビュー合成とマッチングによるアノテートのないデータのアノテートとを,EM方式で学習する。
PASCAL3D+およびKITTIデータセットにおける3次元ポーズ推定のための半教師付き学習フレームワークの有効性を示す。
我々のアプローチは、特に7つの注釈付き画像のみを付与する極端な数ショット設定において、すべてのベースラインを幅広いマージンで上回ります。
注目すべきは、我々のモデルが部分閉塞を含む配布外シナリオにおいて、例外的な堅牢性を達成することである。
関連論文リスト
- Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - Weakly-Supervised 3D Scene Graph Generation via Visual-Linguistic Assisted Pseudo-labeling [9.440800948514449]
視覚言語支援擬似ラベルを用いた弱教師付き3次元シーングラフ生成法を提案する。
我々の3D-VLAPは、テキストと2D画像のセマンティクスを調整するために、現在の大規模視覚言語モデルの優れた能力を利用する。
エッジ自己アテンションに基づくグラフニューラルネットワークを設計し、3Dポイントクラウドシーンのシーングラフを生成する。
論文 参考訳(メタデータ) (2024-04-03T07:30:09Z) - DatasetNeRF: Efficient 3D-aware Data Factory with Generative Radiance Fields [68.94868475824575]
本稿では,無限で高品質な3Dアノテーションを3Dポイントクラウドセグメンテーションとともに生成できる新しいアプローチを提案する。
我々は3次元生成モデルに先立って強力なセマンティクスを活用してセマンティクスデコーダを訓練する。
トレーニングが完了すると、デコーダは遅延空間を効率よく一般化し、無限のデータの生成を可能にする。
論文 参考訳(メタデータ) (2023-11-18T21:58:28Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - Scene Synthesis via Uncertainty-Driven Attribute Synchronization [52.31834816911887]
本稿では,3次元シーンの多様な特徴パターンを捉えるニューラルシーン合成手法を提案する。
提案手法は,ニューラルネットワークと従来のシーン合成手法の双方の長所を結合する。
論文 参考訳(メタデータ) (2021-08-30T19:45:07Z) - Learning Canonical 3D Object Representation for Fine-Grained Recognition [77.33501114409036]
本研究では,1枚の画像から3次元空間における物体の変動を再現する微粒な物体認識のための新しいフレームワークを提案する。
我々は,物体を3次元形状とその外観の合成として表現し,カメラ視点の影響を排除した。
深部表現に3次元形状と外観を併用することにより,物体の識別表現を学習する。
論文 参考訳(メタデータ) (2021-08-10T12:19:34Z) - AUTO3D: Novel view synthesis through unsupervisely learned variational
viewpoint and global 3D representation [27.163052958878776]
本稿では,ポーズ・インスペクションを伴わない単一の2次元画像から学習に基づく新規ビュー・シンセサイザーを目標とする。
本研究では,学習済みの相対的目的/回転と暗黙的グローバルな3次元表現を両立させるために,エンドツーエンドの訓練可能な条件変分フレームワークを構築した。
本システムでは,3次元再構成を明示的に行うことなく,暗黙的に3次元理解を行うことができる。
論文 参考訳(メタデータ) (2020-07-13T18:51:27Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。