論文の概要: MFOS: Model-Free & One-Shot Object Pose Estimation
- arxiv url: http://arxiv.org/abs/2310.01897v1
- Date: Tue, 3 Oct 2023 09:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 14:57:19.309757
- Title: MFOS: Model-Free & One-Shot Object Pose Estimation
- Title(参考訳): mfos: モデルフリーかつワンショットのオブジェクトポーズ推定
- Authors: JongMin Lee, Yohann Cabon, Romain Br\'egier, Sungjoo Yoo, Jerome
Revaud
- Abstract要約: 最小限の入力が与えられた場合、トレーニング中に見たことのないオブジェクトのポーズを1つのフォワードで推定できる新しいアプローチを導入する。
我々は、LINEMODベンチマークで広範な実験を行い、最先端のワンショット性能を報告した。
- 参考スコア(独自算出の注目度): 10.009454818723025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing learning-based methods for object pose estimation in RGB images are
mostly model-specific or category based. They lack the capability to generalize
to new object categories at test time, hence severely hindering their
practicability and scalability. Notably, recent attempts have been made to
solve this issue, but they still require accurate 3D data of the object surface
at both train and test time. In this paper, we introduce a novel approach that
can estimate in a single forward pass the pose of objects never seen during
training, given minimum input. In contrast to existing state-of-the-art
approaches, which rely on task-specific modules, our proposed model is entirely
based on a transformer architecture, which can benefit from recently proposed
3D-geometry general pretraining. We conduct extensive experiments and report
state-of-the-art one-shot performance on the challenging LINEMOD benchmark.
Finally, extensive ablations allow us to determine good practices with this
relatively new type of architecture in the field.
- Abstract(参考訳): RGB画像における既存の学習に基づくオブジェクトポーズ推定手法は、主にモデル固有またはカテゴリベースである。
テスト時に新しいオブジェクトカテゴリに一般化する能力が欠けているため、実用性とスケーラビリティが著しく阻害される。
注目すべきは、この問題を解決するために最近行われた試みだが、それでも列車とテスト時間の両方でオブジェクト表面の正確な3dデータを必要とする。
本稿では,最小限の入力を前提として,トレーニング中に見たことのないオブジェクトのポーズを1つのフォワードで推定できる新しいアプローチを提案する。
タスク固有のモジュールに依存している既存の最先端のアプローチとは対照的に,提案モデルはトランスフォーマーアーキテクチャをベースとしており,最近提案された3次元幾何学の一般事前学習の恩恵を受けることができる。
我々は、LINEMODベンチマークで広範な実験を行い、最先端のワンショット性能を報告する。
最後に、この比較的新しいタイプのアーキテクチャの分野において、広範囲にわたる改善により、優れたプラクティスを決定できるようになります。
関連論文リスト
- FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。
我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文 参考訳(メタデータ) (2023-12-13T18:28:09Z) - GS-Pose: Category-Level Object Pose Estimation via Geometric and
Semantic Correspondence [5.500735640045456]
カテゴリーレベルのポーズ推定は、コンピュータビジョンやロボット工学における多くの潜在的な応用において難しい課題である。
本稿では,事前学習した基礎モデルから得られる幾何学的特徴と意味的特徴の両方を活用することを提案する。
これは、セマンティックな特徴がオブジェクトのテクスチャや外観に対して堅牢であるため、以前のメソッドよりもトレーニングするデータを大幅に少なくする。
論文 参考訳(メタデータ) (2023-11-23T02:35:38Z) - ShapeShift: Superquadric-based Object Pose Estimation for Robotic
Grasping [85.38689479346276]
現在の技術は参照3Dオブジェクトに大きく依存しており、その一般化性を制限し、新しいオブジェクトカテゴリに拡張するのにコストがかかる。
本稿では,オブジェクトに適合するプリミティブな形状に対してオブジェクトのポーズを予測する,オブジェクトのポーズ推定のためのスーパークワッドリックベースのフレームワークであるShapeShiftを提案する。
論文 参考訳(メタデータ) (2023-04-10T20:55:41Z) - NOPE: Novel Object Pose Estimation from a Single Image [67.11073133072527]
本稿では,新しいオブジェクトの1つのイメージを入力として取り込んで,オブジェクトの3Dモデルに関する事前知識を必要とせずに,新しいイメージにおけるオブジェクトの相対的なポーズを予測するアプローチを提案する。
我々は、オブジェクトを取り巻く視点に対する識別的埋め込みを直接予測するモデルを訓練することで、これを実現する。
この予測は単純なU-Netアーキテクチャを用いて行われ、要求されたポーズに注意を向け、条件を定め、非常に高速な推論をもたらす。
論文 参考訳(メタデータ) (2023-03-23T18:55:43Z) - MegaPose: 6D Pose Estimation of Novel Objects via Render & Compare [84.80956484848505]
MegaPoseは、トレーニング中に見えない新しいオブジェクトの6Dポーズを推定する方法である。
本稿では,新しいオブジェクトに適用可能なR&Compare戦略に基づく6次元ポーズリファインダを提案する。
第2に,合成レンダリングと同一物体の観察画像間のポーズ誤差をリファインダで補正できるか否かを分類するために訓練されたネットワークを利用する,粗いポーズ推定のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-13T19:30:03Z) - Stereo Neural Vernier Caliper [57.187088191829886]
学習に基づくステレオ3Dオブジェクト検出のための新しいオブジェクト中心フレームワークを提案する。
初期3次元立方体推定値から改良された更新を予測する方法の問題に対処する。
提案手法は,KITTIベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-21T14:36:07Z) - Object Pose Estimation using Mid-level Visual Representations [5.220940151628735]
本研究は,これまで見つからなかった環境に効果的に移動可能なオブジェクトカテゴリのポーズ推定モデルを提案する。
ポーズ推定のための深層畳み込みネットワークモデル(CNN)は、通常、オブジェクト検出、ポーズ推定、または3D再構成のために算出されたデータセットに基づいて訓練され評価される。
一般化と新しい環境への移動に関しては,この手法が好ましいことを示す。
論文 参考訳(メタデータ) (2022-03-02T22:49:17Z) - Unsupervised Learning of 3D Object Categories from Videos in the Wild [75.09720013151247]
オブジェクトインスタンスの大規模なコレクションの複数のビューからモデルを学ぶことに重点を置いています。
再構成を大幅に改善するワープコンディショニングレイ埋め込み(WCR)と呼ばれる新しいニューラルネットワーク設計を提案する。
本評価は,既存のベンチマークを用いた複数の深部単眼再構成ベースラインに対する性能改善を示す。
論文 参考訳(メタデータ) (2021-03-30T17:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。