論文の概要: RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base
- arxiv url: http://arxiv.org/abs/2506.18856v1
- Date: Mon, 23 Jun 2025 17:19:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.101374
- Title: RAG-6DPose: Retrieval-Augmented 6D Pose Estimation via Leveraging CAD as Knowledge Base
- Title(参考訳): RAG-6DPose:CADを知識ベースとして活用した検索型6次元ポース推定
- Authors: Kuanning Wang, Yuqian Fu, Tianyu Wang, Yanwei Fu, Longfei Liang, Yu-Gang Jiang, Xiangyang Xue,
- Abstract要約: 本稿では,3次元CADモデルを知識ベースとして活用する検索拡張手法であるRAG-6DPoseを提案する。
標準的なベンチマークと実世界のロボットタスクによる実験結果は、我々のアプローチの有効性と堅牢性を示している。
- 参考スコア(独自算出の注目度): 112.72361202480154
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate 6D pose estimation is key for robotic manipulation, enabling precise object localization for tasks like grasping. We present RAG-6DPose, a retrieval-augmented approach that leverages 3D CAD models as a knowledge base by integrating both visual and geometric cues. Our RAG-6DPose roughly contains three stages: 1) Building a Multi-Modal CAD Knowledge Base by extracting 2D visual features from multi-view CAD rendered images and also attaching 3D points; 2) Retrieving relevant CAD features from the knowledge base based on the current query image via our ReSPC module; and 3) Incorporating retrieved CAD information to refine pose predictions via retrieval-augmented decoding. Experimental results on standard benchmarks and real-world robotic tasks demonstrate the effectiveness and robustness of our approach, particularly in handling occlusions and novel viewpoints. Supplementary material is available on our project website: https://sressers.github.io/RAG-6DPose .
- Abstract(参考訳): 正確な6Dポーズ推定はロボット操作の鍵であり、把握のようなタスクの正確なオブジェクトローカライゼーションを可能にする。
RAG-6DPoseは3次元CADモデルを知識ベースとして活用し,視覚的・幾何学的手法を組み合わせた検索手法である。
RAG-6DPoseは以下の3段階を含む。
1)多視点CAD描画画像から2次元視覚特徴を抽出し、3Dポイントを付加した多モードCAD知識ベースの構築。
2) ReSPCモジュールを介して現在の問い合わせ画像に基づいて知識ベースから関連CAD機能を取得する。
3)検索したCAD情報を組み込んで、検索拡張復号によるポーズ予測を洗練させる。
標準ベンチマークと実世界のロボットタスクによる実験結果から,本手法の有効性とロバスト性,特にオクルージョンと新しい視点の扱いが示された。
追加資料はプロジェクトのWebサイト(https://sressers.github.io/RAG-6DPose)で公開されています。
関連論文リスト
- FLARE: Feed-forward Geometry, Appearance and Camera Estimation from Uncalibrated Sparse Views [93.6881532277553]
FLAREは、高品質カメラのポーズと3次元幾何を、補正されていないスパースビュー画像から推定するために設計されたフィードフォワードモデルである。
本ソリューションでは,3次元構造を2次元画像平面にマッピングする上で,カメラポーズが重要なブリッジとして機能するケースケード学習パラダイムを特徴とする。
論文 参考訳(メタデータ) (2025-02-17T18:54:05Z) - Img2CAD: Reverse Engineering 3D CAD Models from Images through VLM-Assisted Conditional Factorization [12.12975824816803]
画像からのリバースエンジニアリング3Dコンピュータ支援設計(CAD)モデルは、多くのダウンストリームアプリケーションにとって重要な課題である。
本研究では,タスクを2つのサブプロブレムに条件付き分解する手法を提案する。
本稿では,連続的な属性値を予測する意味を持つ離散構造を条件としたTrAssemblerを提案する。
論文 参考訳(メタデータ) (2024-07-19T06:53:30Z) - DiffCAD: Weakly-Supervised Probabilistic CAD Model Retrieval and Alignment from an RGB Image [34.47379913018661]
本稿では,RGB画像からのCAD検索とアライメントに対する,最初の弱教師付き確率的アプローチであるDiffCADを提案する。
我々はこれを条件付き生成タスクとして定式化し、拡散を利用して画像中のCADオブジェクトの形状、ポーズ、スケールをキャプチャする暗黙の確率モデルを学ぶ。
提案手法は, 合成データのみを用いて学習し, 単眼深度とマスク推定を利用して, 種々の実対象領域へのロバストなゼロショット適応を実現する。
論文 参考訳(メタデータ) (2023-11-30T15:10:21Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - Coupled Iterative Refinement for 6D Multi-Object Pose Estimation [64.7198752089041]
既知の3DオブジェクトのセットとRGBまたはRGB-Dの入力画像から、各オブジェクトの6Dポーズを検出して推定する。
我々のアプローチは、ポーズと対応を緊密に結合した方法で反復的に洗練し、アウトレーヤを動的に除去して精度を向上させる。
論文 参考訳(メタデータ) (2022-04-26T18:00:08Z) - ROCA: Robust CAD Model Retrieval and Alignment from a Single Image [22.03752392397363]
本稿では,形状データベースから1つの入力画像へ3次元CADモデルを検索・アライメントする,新しいエンドツーエンドアプローチであるROCAを提案する。
ScanNetによる挑戦的で現実的な画像の実験では、ROCAは検索対応CADアライメントの精度が9.5%から17.6%に向上した。
論文 参考訳(メタデータ) (2021-12-03T16:02:32Z) - Patch2CAD: Patchwise Embedding Learning for In-the-Wild Shape Retrieval
from a Single Image [58.953160501596805]
本稿では,2次元画像と3次元CADモデルの結合埋め込み空間をパッチワイズで構築する手法を提案する。
我々のアプローチは、CADが正確に一致しない実世界のシナリオにおける最先端技術よりも堅牢である。
論文 参考訳(メタデータ) (2021-08-20T20:58:52Z) - Mask2CAD: 3D Shape Prediction by Learning to Segment and Retrieve [54.054575408582565]
本稿では,既存の3次元モデルの大規模データセットを活用し,画像中の物体の3次元構造を理解することを提案する。
本稿では,実世界の画像と検出対象を共同で検出するMask2CADについて,最も類似したCADモデルとそのポーズを最適化する。
これにより、画像内のオブジェクトのクリーンで軽量な表現が生成される。
論文 参考訳(メタデータ) (2020-07-26T00:08:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。