論文の概要: CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation
- arxiv url: http://arxiv.org/abs/2511.12919v1
- Date: Mon, 17 Nov 2025 03:15:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.630211
- Title: CoordAR: One-Reference 6D Pose Estimation of Novel Objects via Autoregressive Coordinate Map Generation
- Title(参考訳): CoordAR: 自己回帰座標マップ生成による新しい物体の1参照6次元ポス推定
- Authors: Dexin Zuo, Ang Li, Wei Wang, Wenxian Yu, Danping Zou,
- Abstract要約: CoordARは、一参照6Dポーズ推定のための新しい自動回帰フレームワークである。
1) 離散化された3次元空間上での確率的予測を可能にする新しい座標マップのトークン化,2) RGBの外観と座標キューを別々に符号化するモダリティデカップリング符号化戦略,3) 両方の位置整列クエリ特徴に条件付き自己回帰変換器デコーダを提案する。
- 参考スコア(独自算出の注目度): 20.453498343557026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Object 6D pose estimation, a crucial task for robotics and augmented reality applications, becomes particularly challenging when dealing with novel objects whose 3D models are not readily available. To reduce dependency on 3D models, recent studies have explored one-reference-based pose estimation, which requires only a single reference view instead of a complete 3D model. However, existing methods that rely on real-valued coordinate regression suffer from limited global consistency due to the local nature of convolutional architectures and face challenges in symmetric or occluded scenarios owing to a lack of uncertainty modeling. We present CoordAR, a novel autoregressive framework for one-reference 6D pose estimation of unseen objects. CoordAR formulates 3D-3D correspondences between the reference and query views as a map of discrete tokens, which is obtained in an autoregressive and probabilistic manner. To enable accurate correspondence regression, CoordAR introduces 1) a novel coordinate map tokenization that enables probabilistic prediction over discretized 3D space; 2) a modality-decoupled encoding strategy that separately encodes RGB appearance and coordinate cues; and 3) an autoregressive transformer decoder conditioned on both position-aligned query features and the partially generated token sequence. With these novel mechanisms, CoordAR significantly outperforms existing methods on multiple benchmarks and demonstrates strong robustness to symmetry, occlusion, and other challenges in real-world tests.
- Abstract(参考訳): ロボット工学および拡張現実アプリケーションにとって重要な課題であるオブジェクト6Dポーズ推定は、3Dモデルが容易に利用できない新しいオブジェクトを扱う場合、特に困難になる。
3Dモデルへの依存を減らすため、最近の研究では、完全な3Dモデルではなく単一の参照ビューのみを必要とする1参照ベースのポーズ推定について検討している。
しかし、実際の座標回帰に依存する既存の手法は、畳み込みアーキテクチャの局所的な性質と、不確実性モデリングの欠如による対称的あるいは隠蔽的なシナリオにおける課題のために、限られた大域的な一貫性に悩まされている。
本稿では,一参照6次元ポーズ推定のための新しい自己回帰フレームワークCoordARを提案する。
CoordARは、参照とクエリビューの間の3D-3D対応を離散トークンのマップとして定式化し、これは自己回帰的かつ確率的な方法で得られる。
正確な対応レグレッションを実現するため、CoordARが導入
1) 離散化された3次元空間上の確率的予測を可能にする新しい座標地図のトークン化
2)RGBの外観とコーディネート・キューを別々に符号化するモダリティ分離型符号化戦略
3) 位置整列クエリ特徴と部分生成トークンシーケンスの両方を条件とした自己回帰変換器デコーダ。
これらの新しいメカニズムにより、CoordARは既存の手法を複数のベンチマークで大幅に上回り、実際のテストにおいて対称性、閉塞性、その他の課題に対して強い堅牢性を示す。
関連論文リスト
- Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z) - A Probabilistic Attention Model with Occlusion-aware Texture Regression
for 3D Hand Reconstruction from a Single RGB Image [5.725477071353354]
深層学習のアプローチは、1枚のRGB画像から3Dの手の再構築に有望な結果を示している。
本稿では,モデルに基づくアプローチの堅牢性を実現するための新しい確率モデルを提案する。
本稿では,教師付きシナリオと弱教師付きシナリオの両方において,提案する確率モデルの柔軟性を実証する。
論文 参考訳(メタデータ) (2023-04-27T16:02:32Z) - NeurAR: Neural Uncertainty for Autonomous 3D Reconstruction [64.36535692191343]
暗黙の神経表現はオフラインの3D再構成において魅力的な結果を示しており、オンラインSLAMシステムの可能性も最近示している。
本論文は,1)新しい表現に基づく視点計画の質を評価するための基準を求めること,2)手作りではなく,異なる場面に一般化可能なデータから基準を学習すること,の2つの課題に対処する。
本手法は, TSDFを用いた変形モデルやビュープランニングなしでの再構成モデルと比較した場合, レンダリングされた画像品質と再構成された3次元モデルの幾何学的品質について, 様々な指標について有意な改善を示す。
論文 参考訳(メタデータ) (2022-07-22T10:05:36Z) - A Dual-Masked Auto-Encoder for Robust Motion Capture with
Spatial-Temporal Skeletal Token Completion [13.88656793940129]
本稿では, 3次元関節を再構成し, 個々の関節を識別するための適応的, アイデンティティを意識した三角測量モジュールを提案する。
次に,D-MAE(Dual-Masked Auto-Encoder)を提案する。
重大なデータ損失シナリオを扱う上で提案するモデルの能力を実証するために,高精度で挑戦的なモーションキャプチャデータセットに貢献する。
論文 参考訳(メタデータ) (2022-07-15T10:00:43Z) - Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose
Estimation [63.199549837604444]
3次元ポーズ推定アプローチは、強い(2D/3Dポーズ)または弱い(複数ビューまたは深さ)ペアによる監督の異なる形態を利用する。
我々は3Dポーズ学習を,ラベル付きソースドメインから完全に損なわれないターゲットへのタスク知識の転送を目的とした,自己指導型適応問題として捉えた。
我々は、異なる自己適応設定を評価し、標準ベンチマークで最先端の3Dポーズ推定性能を示す。
論文 参考訳(メタデータ) (2022-04-05T03:52:57Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。