論文の概要: Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images
- arxiv url: http://arxiv.org/abs/2306.07598v1
- Date: Tue, 13 Jun 2023 07:45:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-14 14:40:35.477967
- Title: Learning to Estimate 6DoF Pose from Limited Data: A Few-Shot,
Generalizable Approach using RGB Images
- Title(参考訳): 限られたデータから6DoFパターンを推定する学習:RGB画像を用いた少しショットで一般化可能なアプローチ
- Authors: Panwang Pan, Zhiwen Fan, Brandon Y. Feng, Peihao Wang, Chenxin Li,
Zhangyang Wang
- Abstract要約: 本稿では,数ショットの6DoFポーズ推定のためのCas6Dという新しいフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するために,本フレームワークでは,自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
LINEMODとGenMOPデータセットの実験結果は、Cas6Dが32ショット設定で最先端の手法を9.2%、精度3.8%(Proj-5)で上回ることを示した。
- 参考スコア(独自算出の注目度): 60.0898989456276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The accurate estimation of six degrees-of-freedom (6DoF) object poses is
essential for many applications in robotics and augmented reality. However,
existing methods for 6DoF pose estimation often depend on CAD templates or
dense support views, restricting their usefulness in realworld situations. In
this study, we present a new cascade framework named Cas6D for few-shot 6DoF
pose estimation that is generalizable and uses only RGB images. To address the
false positives of target object detection in the extreme few-shot setting, our
framework utilizes a selfsupervised pre-trained ViT to learn robust feature
representations. Then, we initialize the nearest top-K pose candidates based on
similarity score and refine the initial poses using feature pyramids to
formulate and update the cascade warped feature volume, which encodes context
at increasingly finer scales. By discretizing the pose search range using
multiple pose bins and progressively narrowing the pose search range in each
stage using predictions from the previous stage, Cas6D can overcome the large
gap between pose candidates and ground truth poses, which is a common failure
mode in sparse-view scenarios. Experimental results on the LINEMOD and GenMOP
datasets demonstrate that Cas6D outperforms state-of-the-art methods by 9.2%
and 3.8% accuracy (Proj-5) under the 32-shot setting compared to OnePose++ and
Gen6D.
- Abstract(参考訳): 6自由度(6dof)オブジェクトの正確な推定は、ロボティクスと拡張現実の多くの応用に不可欠である。
しかし,既存の6DoFポーズ推定手法はCADテンプレートや密集型サポートビューに依存することが多く,現実の状況下での有用性を制限している。
本研究では,一般化可能でrgb画像のみを使用するポーズ推定のためのcas6dという新しいカスケードフレームワークを提案する。
極めて少数の設定で対象物検出の偽陽性に対処するため,我々のフレームワークは自己教師付き事前学習型ViTを用いて,ロバストな特徴表現を学習する。
次に、類似度スコアに基づいて最も近いトップKポーズ候補を初期化し、特徴ピラミッドを用いて初期ポーズを洗練し、より微細なスケールでコンテキストをエンコードするカスケード変形特徴量を定式化し、更新する。
複数のポーズビンを用いてポーズ探索範囲を判別し、前段からの予測を用いて各段のポーズ探索範囲を段階的に狭めることにより、cas6dは、スパースビューシナリオにおいて一般的な失敗モードであるポーズ候補と基底真理ポーズとの間の大きなギャップを克服することができる。
LINEMODとGenMOPデータセットの実験結果によると、Cas6DはOnePose++とGen6Dと比較して32ショット設定で最先端のメソッドを9.2%、精度3.8%で上回っている。
関連論文リスト
- ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - POPE: 6-DoF Promptable Pose Estimation of Any Object, in Any Scene, with
One Reference [72.32413378065053]
Promptable Object Pose Estimation (POPE) と呼ばれるオブジェクトポーズ推定のための一般的なパラダイムを提案する。
POPEは、任意のシーンの任意の対象オブジェクトに対してゼロショット6DoFオブジェクトのポーズ推定を可能にし、サポートビューは単一の参照のみを採用する。
総合的な実験結果から、POPEはゼロショット設定で非競合なロバストな性能を示すことが示された。
論文 参考訳(メタデータ) (2023-05-25T05:19:17Z) - MV6D: Multi-View 6D Pose Estimation on RGB-D Frames Using a Deep
Point-wise Voting Network [14.754297065772676]
MV6Dと呼ばれる新しい多視点6Dポーズ推定手法を提案する。
我々は、ターゲットオブジェクトのキーポイントを予測するために単一のRGB-D画像を使用するPVN3Dネットワークをベースとしています。
CosyPoseのような現在の多視点ポーズ検出ネットワークとは対照的に、MV6Dはエンドツーエンドで複数の視点の融合を学習することができる。
論文 参考訳(メタデータ) (2022-08-01T23:34:43Z) - Unseen Object 6D Pose Estimation: A Benchmark and Baselines [62.8809734237213]
本稿では,新しい物体の6次元ポーズ推定をアルゴリズムで行えるようにするための新しいタスクを提案する。
実画像と合成画像の両方でデータセットを収集し、テストセットで最大48個の未確認オブジェクトを収集する。
エンド・ツー・エンドの3D対応ネットワークをトレーニングすることにより、未確認物体と部分ビューRGBD画像との対応点を高精度かつ効率的に見つけることができる。
論文 参考訳(メタデータ) (2022-06-23T16:29:53Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - FS6D: Few-Shot 6D Pose Estimation of Novel Objects [116.34922994123973]
6Dオブジェクトポーズ推定ネットワークは、多数のオブジェクトインスタンスにスケールする能力に制限がある。
本研究では,未知の物体の6次元ポーズを,余分な訓練を伴わずにいくつかの支援ビューで推定する。
論文 参考訳(メタデータ) (2022-03-28T10:31:29Z) - NeRF-Pose: A First-Reconstruct-Then-Regress Approach for
Weakly-supervised 6D Object Pose Estimation [44.42449011619408]
トレーニング中に2次元オブジェクトセグメンテーションと既知の相対カメラポーズしか必要としないNeRF-Poseという,弱教師付き再構築型パイプラインを提案する。
予測応答から安定かつ正確なポーズを推定するために、NeRF対応RAN+SACアルゴリズムを用いる。
LineMod-Occlusion 実験の結果,提案手法は6次元ポーズ推定法と比較して最先端の精度を持つことがわかった。
論文 参考訳(メタデータ) (2022-03-09T15:28:02Z) - Adversarial samples for deep monocular 6D object pose estimation [16.308526930732718]
RGB画像からオブジェクト6Dのポーズを推定することは、自律運転やロボットグリップといった現実の多くのアプリケーションにとって重要である。
本研究では,最先端深層学習(SOTA)に基づく6次元ポーズ推定モデルを騙しうる敵対的サンプルについて検討する。
論文 参考訳(メタデータ) (2022-03-01T09:16:37Z) - SO-Pose: Exploiting Self-Occlusion for Direct 6D Pose Estimation [98.83762558394345]
SO-Poseは、オブジェクトの6自由度(6DoF)をすべて、単一のRGBイメージから散らばった環境でポーズさせるフレームワークである。
本稿では,3次元オブジェクトの2層表現を確立するために,自己閉塞に関する新たな推論を導入する。
対応性,自己閉塞性,6次元ポーズを整列する層間合成により,精度とロバスト性をさらに向上させることができる。
論文 参考訳(メタデータ) (2021-08-18T19:49:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。