論文の概要: Novel Object Viewpoint Estimation through Reconstruction Alignment
- arxiv url: http://arxiv.org/abs/2006.03586v1
- Date: Fri, 5 Jun 2020 17:58:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 04:01:45.623854
- Title: Novel Object Viewpoint Estimation through Reconstruction Alignment
- Title(参考訳): リコンストラクションアライメントによる新しい物体視点推定
- Authors: Mohamed El Banani, Jason J. Corso, David F. Fouhey
- Abstract要約: 我々は、新しい対象の視点を推定するために再構成と整合性アプローチを学ぶ。
具体的には、2つのネットワークを学習することを提案する。最初の1つは3次元幾何学的特徴ボトルネックに画像をマッピングし、画像から画像への変換損失を学習する。
テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
- 参考スコア(独自算出の注目度): 45.16865218423492
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this paper is to estimate the viewpoint for a novel object.
Standard viewpoint estimation approaches generally fail on this task due to
their reliance on a 3D model for alignment or large amounts of class-specific
training data and their corresponding canonical pose. We overcome those
limitations by learning a reconstruct and align approach. Our key insight is
that although we do not have an explicit 3D model or a predefined canonical
pose, we can still learn to estimate the object's shape in the viewer's frame
and then use an image to provide our reference model or canonical pose. In
particular, we propose learning two networks: the first maps images to a 3D
geometry-aware feature bottleneck and is trained via an image-to-image
translation loss; the second learns whether two instances of features are
aligned. At test time, our model finds the relative transformation that best
aligns the bottleneck features of our test image to a reference image. We
evaluate our method on novel object viewpoint estimation by generalizing across
different datasets, analyzing the impact of our different modules, and
providing a qualitative analysis of the learned features to identify what
representations are being learnt for alignment.
- Abstract(参考訳): 本稿の目的は,新しい対象の視点を推定することである。
標準視点推定手法は, 多数のクラス固有のトレーニングデータとそれに対応する標準ポーズをアライメントする3Dモデルに依存しているため, 一般的には, この課題において失敗する。
再構成と整合性アプローチを学ぶことで、これらの制限を克服します。
私たちのキーとなる洞察は、明示的な3Dモデルや定義済みの標準ポーズは持っていませんが、ビューアのフレーム内のオブジェクトの形状を推定し、イメージを使用して参照モデルや標準ポーズを提供します。
特に,2つのネットワークの学習を提案する。第1は画像から画像への変換損失を学習し,第2は2つの特徴が一致しているかどうかを学習する。
テスト時に、我々のモデルは、テスト画像のボトルネック特徴と参照画像とを最もよく一致させる相対変換を見つけます。
提案手法は,異なるデータセットにまたがって一般化し,異なるモジュールの影響を分析し,学習した特徴の質的分析を行い,どの表現がアライメントのために学習されているかを特定することで,新たなオブジェクト視点推定手法を評価する。
関連論文リスト
- FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - Orient Anything: Learning Robust Object Orientation Estimation from Rendering 3D Models [79.96917782423219]
オリエント・アプライシング(Orient Anything)は、1つの画像でオブジェクトの向きを推定するために設計された最初のエキスパートで基礎的なモデルである。
3Dオブジェクトの前面にアノテートするパイプラインを開発することで、正確な向きのアノテーションで2Mイメージを収集する。
本モデルでは,レンダリング画像と実画像の両方において,最先端の向き推定精度を実現する。
論文 参考訳(メタデータ) (2024-12-24T18:58:43Z) - Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - Unsupervised Learning of Category-Level 3D Pose from Object-Centric Videos [15.532504015622159]
カテゴリーレベルの3Dポーズ推定は、コンピュータビジョンとロボット工学において基本的に重要な問題である。
カテゴリーレベルの3Dポーズを,カジュアルに撮られた対象中心の動画からのみ推定する学習の課題に取り組む。
論文 参考訳(メタデータ) (2024-07-05T09:43:05Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - A Divide et Impera Approach for 3D Shape Reconstruction from Multiple
Views [49.03830902235915]
物体の3次元形状を1つまたは複数の画像から推定することは、最近のディープラーニングによるブレークスルーによって人気を集めている。
本稿では,与えられた視点からの可視情報を統合することで,視点変化の再構築に頼ることを提案する。
提案手法を検証するために,相対的なポーズ推定と3次元形状再構成の観点から,ShapeNet参照ベンチマークの総合評価を行った。
論文 参考訳(メタデータ) (2020-11-17T09:59:32Z) - Shape and Viewpoint without Keypoints [63.26977130704171]
本研究では,1枚の画像から3次元形状,ポーズ,テクスチャを復元する学習フレームワークを提案する。
我々は,3次元形状,マルチビュー,カメラ視点,キーポイントの監督なしに画像収集を訓練した。
我々は、最先端のカメラ予測結果を取得し、オブジェクト間の多様な形状やテクスチャを予測することを学べることを示す。
論文 参考訳(メタデータ) (2020-07-21T17:58:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。