論文の概要: NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2101.12378v2
- Date: Tue, 2 Feb 2021 17:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 13:08:18.088475
- Title: NeMo: Neural Mesh Models of Contrastive Features for Robust 3D Pose
Estimation
- Title(参考訳): NeMo: ロバスト3次元ポース推定のためのコントラスト特徴のニューラルネットワークモデル
- Authors: Angtian Wang, Adam Kortylewski, Alan Yuille
- Abstract要約: 3Dポーズ推定はコンピュータビジョンにおいて難しいが重要な課題である。
3次元ポーズ推定に対する標準的なディープラーニングアプローチは、オブジェクトが部分的に隠されたり、これまで見えなかったポーズから見える場合、堅牢ではないことを示す。
我々は,ディープニューラルネットワークとオブジェクトの3次元生成表現を,NeMoと呼ぶ統一ニューラルアーキテクチャに統合することを提案する。
- 参考スコア(独自算出の注目度): 11.271053492520535
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: 3D pose estimation is a challenging but important task in computer vision. In
this work, we show that standard deep learning approaches to 3D pose estimation
are not robust when objects are partially occluded or viewed from a previously
unseen pose. Inspired by the robustness of generative vision models to partial
occlusion, we propose to integrate deep neural networks with 3D generative
representations of objects into a unified neural architecture that we term
NeMo. In particular, NeMo learns a generative model of neural feature
activations at each vertex on a dense 3D mesh. Using differentiable rendering
we estimate the 3D object pose by minimizing the reconstruction error between
NeMo and the feature representation of the target image. To avoid local optima
in the reconstruction loss, we train the feature extractor to maximize the
distance between the individual feature representations on the mesh using
contrastive learning. Our extensive experiments on PASCAL3D+,
occluded-PASCAL3D+ and ObjectNet3D show that NeMo is much more robust to
partial occlusion and unseen pose compared to standard deep networks, while
retaining competitive performance on regular data. Interestingly, our
experiments also show that NeMo performs reasonably well even when the mesh
representation only crudely approximates the true object geometry with a
cuboid, hence revealing that the detailed 3D geometry is not needed for
accurate 3D pose estimation. The code is publicly available at
https://github.com/Angtian/NeMo.
- Abstract(参考訳): 3Dポーズ推定はコンピュータビジョンにおいて難しいが重要な課題である。
本研究では,3Dポーズ推定における標準的深層学習手法が,対象物が部分的に遮蔽されたり,以前見つからなかったポーズから見たりした場合,堅牢ではないことを示した。
生成的視覚モデルから部分閉塞へのロバスト性に着想を得て,物体の3次元生成表現とディープニューラルネットワークを,NeMoと呼ぶ統一ニューラルネットワークアーキテクチャに統合することを提案する。
特にnemoは、密集した3dメッシュ上の各頂点における神経特徴活性化の生成モデルを学ぶ。
微分可能レンダリングを用いて、NeMoとターゲット画像の特徴表現との再構成誤差を最小化することにより、3Dオブジェクトのポーズを推定する。
レコンストラクション損失の局所視認を避けるために,特徴抽出器を訓練し,メッシュ上の個々の特徴表現間の距離をコントラスト学習を用いて最大化する。
PASCAL3D+、Occluded-PASCAL3D+およびObjectNet3Dに関する広範な実験により、NeMoは通常のディープネットワークに比べて、部分閉塞に対してより堅牢であり、かつ、通常のデータ上での競合性能を維持しながら、目に見えないポーズを示す。
興味深いことに、私たちの実験では、メッシュ表現が真の物体ジオメトリを立方体で粗大に近似するだけであっても、NeMoが合理的にうまく機能することを示しており、正確な3Dポーズ推定には詳細な3Dジオメトリは必要ありません。
コードはhttps://github.com/Angtian/NeMoで公開されている。
関連論文リスト
- Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - ZeroMesh: Zero-shot Single-view 3D Mesh Reconstruction [69.29406107513621]
シングルビューRGB画像から3次元形状を復元することを目的とした,コンピュータビジョンの基本課題である。
本稿では,ゼロショット・シングルビュー3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
具体的には,エンド・ツー・エンドの2段階ネットワークであるZeroMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Neural View Synthesis and Matching for Semi-Supervised Few-Shot Learning
of 3D Pose [10.028521796737314]
本稿では,ラベル付きサンプルと非ラベル付きデータの集合から3次元オブジェクトのポーズを推定する学習の課題について検討する。
我々の主な貢献は学習フレームワークであるニューラルビュー合成とマッチングであり、3Dポーズアノテーションをラベル付けされたラベル付き画像から、確実に非ラベル付き画像に転送することができる。
論文 参考訳(メタデータ) (2021-10-27T06:53:53Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D
Object Detection [83.57300674285133]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z) - Ground-aware Monocular 3D Object Detection for Autonomous Driving [6.5702792909006735]
1台のRGBカメラで環境中の物体の位置と向きを推定することは、低コストの都市自動運転と移動ロボットにとって難しい課題である。
既存のアルゴリズムのほとんどは、2D-3D対応における幾何学的制約に基づいており、これは一般的な6Dオブジェクトのポーズ推定に由来する。
深層学習の枠組みにおいて、そのようなアプリケーション固有の事前知識を完全に活用するための新しいニューラルネットワークモジュールを導入する。
論文 参考訳(メタデータ) (2021-02-01T08:18:24Z) - Interactive Annotation of 3D Object Geometry using 2D Scribbles [84.51514043814066]
本稿では,ポイントクラウドデータとRGB画像から3次元オブジェクト形状をアノテートする対話型フレームワークを提案する。
当社のフレームワークは,芸術的,グラフィック的専門知識のないナイーブユーザを対象としている。
論文 参考訳(メタデータ) (2020-08-24T21:51:29Z) - MoNet3D: Towards Accurate Monocular 3D Object Localization in Real Time [15.245372936153277]
MoNet3Dはモノクロ画像中の各オブジェクトの3D位置を予測し、各オブジェクトの3Dバウンディングボックスを描画する新しいフレームワークである。
この手法は27.85FPSのリアルタイム画像処理を実現することができ、組込み先進運転支援システム応用の可能性を示している。
論文 参考訳(メタデータ) (2020-06-29T12:48:57Z) - Implicit Functions in Feature Space for 3D Shape Reconstruction and
Completion [53.885984328273686]
Implicit Feature Networks (IF-Nets) は連続的な出力を提供し、複数のトポロジを扱える。
IF-NetsはShapeNetにおける3次元オブジェクト再構成における先行作業よりも明らかに優れており、より正確な3次元人間の再構成が得られる。
論文 参考訳(メタデータ) (2020-03-03T11:14:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。