論文の概要: NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2101.12378v1
- Date: Fri, 29 Jan 2021 03:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-01 16:14:10.405707
- Title: NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose
Estimation
- Title(参考訳): NeMo: ロバスト3次元ポース推定のためのコントラスト特徴のニューラルネットワークモデル
- Authors: Angtian Wang, Adam Kortylewski, Alan Yuille
- Abstract要約: 3Dポーズ推定はコンピュータビジョンにおいて難しいが重要な課題である。
3次元ポーズ推定に対する標準的なディープラーニングアプローチは、オブジェクトが部分的に隠されたり、これまで見えなかったポーズから見える場合、堅牢ではないことを示す。
我々は,ディープニューラルネットワークとオブジェクトの3次元生成表現を,NeMoと呼ぶ統一ニューラルアーキテクチャに統合することを提案する。
- 参考スコア(独自算出の注目度): 11.271053492520535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D pose estimation is a challenging but important task in computer vision. In
this work, we show that standard deep learning approaches to 3D pose estimation
are not robust when objects are partially occluded or viewed from a previously
unseen pose. Inspired by the robustness of generative vision models to partial
occlusion, we propose to integrate deep neural networks with 3D generative
representations of objects into a unified neural architecture that we term
NeMo. In particular, NeMo learns a generative model of neural feature
activations at each vertex on a dense 3D mesh. Using differentiable rendering
we estimate the 3D object pose by minimizing the reconstruction error between
NeMo and the feature representation of the target image. To avoid local optima
in the reconstruction loss, we train the feature extractor to maximize the
distance between the individual feature representations on the mesh using
contrastive learning. Our extensive experiments on PASCAL3D+,
occluded-PASCAL3D+ and ObjectNet3D show that NeMo is much more robust to
partial occlusion and unseen pose compared to standard deep networks, while
retaining competitive performance on regular data. Interestingly, our
experiments also show that NeMo performs reasonably well even when the mesh
representation only crudely approximates the true object geometry with a
cuboid, hence revealing that the detailed 3D geometry is not needed for
accurate 3D pose estimation. The code is publicly available at
https://github.com/Angtian/NeMo.
- Abstract(参考訳): 3Dポーズ推定はコンピュータビジョンにおいて難しいが重要な課題である。
本研究では,3Dポーズ推定における標準的深層学習手法が,対象物が部分的に遮蔽されたり,以前見つからなかったポーズから見たりした場合,堅牢ではないことを示した。
生成的視覚モデルから部分閉塞へのロバスト性に着想を得て,物体の3次元生成表現とディープニューラルネットワークを,NeMoと呼ぶ統一ニューラルネットワークアーキテクチャに統合することを提案する。
特にnemoは、密集した3dメッシュ上の各頂点における神経特徴活性化の生成モデルを学ぶ。
微分可能レンダリングを用いて、NeMoとターゲット画像の特徴表現との再構成誤差を最小化することにより、3Dオブジェクトのポーズを推定する。
レコンストラクション損失の局所視認を避けるために,特徴抽出器を訓練し,メッシュ上の個々の特徴表現間の距離をコントラスト学習を用いて最大化する。
PASCAL3D+、Occluded-PASCAL3D+およびObjectNet3Dに関する広範な実験により、NeMoは通常のディープネットワークに比べて、部分閉塞に対してより堅牢であり、かつ、通常のデータ上での競合性能を維持しながら、目に見えないポーズを示す。
興味深いことに、私たちの実験では、メッシュ表現が真の物体ジオメトリを立方体で粗大に近似するだけであっても、NeMoが合理的にうまく機能することを示しており、正確な3Dポーズ推定には詳細な3Dジオメトリは必要ありません。
コードはhttps://github.com/Angtian/NeMoで公開されている。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Model2Scene: Learning 3D Scene Representation via Contrastive
Language-CAD Models Pre-training [105.3421541518582]
現在成功している3次元シーン認識法は、大規模アノテートされた点雲に依存している。
CAD(Computer-Aided Design)モデルと言語から自由な3Dシーン表現を学習する新しいパラダイムであるModel2Sceneを提案する。
Model2Sceneは、平均mAPが46.08%、ScanNetとS3DISのデータセットが55.49%という、ラベルなしの優れた3Dオブジェクトのサリエント検出をもたらす。
論文 参考訳(メタデータ) (2023-09-29T03:51:26Z) - MonoNeRD: NeRF-like Representations for Monocular 3D Object Detection [31.58403386994297]
我々は,高密度な3次元形状と占有度を推定できる新しい検出フレームワークMonoNeRDを提案する。
具体的には、SDF(Signed Distance Function)を用いてシーンをモデル化し、密集した3D表現の作成を容易にする。
我々の知る限り、この研究は初めてM3Dのボリュームレンダリングを導入し、画像に基づく3D知覚のための暗黙的な再構築の可能性を示す。
論文 参考訳(メタデータ) (2023-08-18T09:39:52Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Learning Occupancy for Monocular 3D Object Detection [25.56336546513198]
モノクローナル3次元検出のための占有度学習法であるtextbfOccupancy M3D を提案する。
フラストムと3D空間の占有を直接学習し、より差別的で情報的な3D特徴や表現をもたらす。
KITTIとオープンデータセットの実験により,提案手法が新たな最先端技術を実現し,他の手法をはるかに上回っていることが示された。
論文 参考訳(メタデータ) (2023-05-25T04:03:46Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D
Object Detection [83.57300674285133]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - MoNet3D: Towards Accurate Monocular 3D Object Localization in Real Time [15.245372936153277]
MoNet3Dはモノクロ画像中の各オブジェクトの3D位置を予測し、各オブジェクトの3Dバウンディングボックスを描画する新しいフレームワークである。
この手法は27.85FPSのリアルタイム画像処理を実現することができ、組込み先進運転支援システム応用の可能性を示している。
論文 参考訳(メタデータ) (2020-06-29T12:48:57Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。