論文の概要: Zero-Shot Robotic Manipulation via 3D Gaussian Splatting-Enhanced Multimodal Retrieval-Augmented Generation
- arxiv url: http://arxiv.org/abs/2603.00500v1
- Date: Sat, 28 Feb 2026 06:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 04:58:38.268425
- Title: Zero-Shot Robotic Manipulation via 3D Gaussian Splatting-Enhanced Multimodal Retrieval-Augmented Generation
- Title(参考訳): 3次元ガウス平滑化強化マルチモーダル検索生成によるゼロショットロボットマニピュレーション
- Authors: Zilong Xie, Jingyu Gong, Xin Tan, Zhizhong Zhang, Yuan Xie,
- Abstract要約: 既存のエンドツーエンドのロボット操作アプローチでは、限られたデータと弱い解釈性のために、見えないオブジェクトやタスクへの一般化が欠如していることが多い。
ゼロショットロボット操作のための3次元ガウス型マルチモーダル検索生成フレームワークRobMRAGを提案する。
提案手法は, 最高性能のゼロショットベースラインと比較して7.76%, 最先端の教師付きベースラインに比べて6.54%向上する。
- 参考スコア(独自算出の注目度): 24.066642344610873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing end-to-end approaches of robotic manipulation often lack generalization to unseen objects or tasks due to limited data and poor interpretability. While recent Multimodal Large Language Models (MLLMs) demonstrate strong commonsense reasoning, they struggle with geometric and spatial understanding required for pose prediction. In this paper, we propose RobMRAG, a 3D Gaussian Splatting-Enhanced Multimodal Retrieval-Augmented Generation (MRAG) framework for zero-shot robotic manipulation. Specifically, we construct a multi-source manipulation knowledge base containing object contact frames, task completion frames, and pose parameters. During inference, a Hierarchical Multimodal Retrieval module first employs a three-priority hybrid retrieval strategy to find task-relevant object prototypes, then selects the geometrically closest reference example based on pixel-level similarity and Instance Matching Distance (IMD). We further introduce a 3D-Aware Pose Refinement module based on 3D Gaussian Splatting into the MRAG framework, which aligns the pose of the reference object to the target object in 3D space. The aligned results are reprojected onto the image plane and used as input to the MLLM to enhance the generation of the final pose parameters. Extensive experiments show that on a test set containing 30 categories of household objects, our method improves the success rate by 7.76% compared to the best-performing zero-shot baseline under the same setting, and by 6.54% compared to the state-of-the-art supervised baseline. Our results validate that RobMRAG effectively bridges the gap between high-level semantic reasoning and low-level geometric execution, enabling robotic systems that generalize to unseen objects while remaining inherently interpretable.
- Abstract(参考訳): 既存のエンドツーエンドのロボット操作アプローチでは、限られたデータと弱い解釈性のために、見えないオブジェクトやタスクへの一般化が欠如していることが多い。
近年のMultimodal Large Language Models (MLLM) は強い常識推論を実証しているが, ポーズ予測に必要な幾何学的, 空間的理解に苦慮している。
本稿では,ゼロショットロボット操作のための3Dガウス型マルチモーダル検索生成(MRAG)フレームワークであるRobMRAGを提案する。
具体的には、オブジェクト接触フレーム、タスク完了フレーム、ポーズパラメータを含むマルチソース操作知識ベースを構築する。
推論中、階層的マルチモーダル検索モジュールは、まず3つの優先度のハイブリッド検索戦略を用いてタスク関連オブジェクトのプロトタイプを見つけ、次いで、ピクセルレベルの類似性とインスタンスマッチング距離(IMD)に基づいて幾何学的に最も近い参照例を選択する。
さらに,MRAGフレームワークに3次元ガウススプティングをベースとした3次元ポスリファインメントモジュールを導入し,対象オブジェクトに対する参照オブジェクトのポーズを3次元空間内で整列させる。
一致した結果が画像面に再投影され、MLLMへの入力として使用され、最終的なポーズパラメータの生成が促進される。
実験の結果,30種類の家庭用物を含むテストセットでは,同じ条件下での最高性能のゼロショットベースラインに比べて7.76%,最先端の教師付きベースラインに比べて6.54%向上した。
以上の結果から,RobMRAGは,高レベルの意味的推論と低レベルの幾何学的実行のギャップを効果的に埋めることが確認できた。
関連論文リスト
- GAP-MLLM: Geometry-Aligned Pre-training for Activating 3D Spatial Perception in Multimodal Large Language Models [70.61152292499737]
このギャップは、幾何学的事前の不足から生じるものではなく、訓練パラダイムの誤った調整から生じるものである、と我々は主張する。
既存のアプローチでは、通常、特徴の結合を示唆し、幾何学的な監督なしに下流のタスクを直接最適化する。
本稿では,下流適応前の構造知覚を明示的に活性化する幾何学的事前学習パラダイムであるGAP-MLLMを提案する。
論文 参考訳(メタデータ) (2026-03-17T12:43:48Z) - ArtLLM: Generating Articulated Assets via 3D LLM [19.814132638278547]
ArtLLMは、完全な3Dメッシュから直接高品質な調音資産を生成するための新しいフレームワークである。
コアとなるのは,大規模な調音データセットに基づいてトレーニングされた,3Dマルチモーダルな大規模言語モデルだ。
実験の結果,ArtLLMは部品配置精度と接合予測の両方で最先端の手法を著しく上回ることがわかった。
論文 参考訳(メタデータ) (2026-03-01T15:07:46Z) - OPFormer: Object Pose Estimation leveraging foundation model with geometric encoding [2.1987601456703474]
オブジェクト検出とポーズ推定をシームレスに統合する統合されたエンドツーエンドフレームワークを導入する。
当システムではまずCNOS検出器を用いて対象物体のローカライズを行う。
検出毎に、新しいポーズ推定モジュールOPFormerが正確な6Dポーズを推測する。
論文 参考訳(メタデータ) (2025-11-16T14:19:52Z) - URDF-Anything: Constructing Articulated Objects with 3D Multimodal Language Model [76.08429266631823]
3次元マルチモーダル大言語モデル(MLLM)に基づくエンドツーエンドの自動再構築フレームワークを提案する。
URDF-Anythingは、ポイントクラウドとテキストマルチモーダル入力に基づく自己回帰予測フレームワークを使用して、幾何学的セグメンテーションと運動論的パラメータ予測を協調的に最適化する。
シミュレーションと実世界の両方のデータセットの実験は、我々の手法が既存の手法よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-11-02T13:45:51Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - IAAO: Interactive Affordance Learning for Articulated Objects in 3D Environments [56.85804719947]
IAAOは知的エージェントのための明示的な3Dモデルを構築するフレームワークで,対話を通して環境内の明瞭な物体の理解を得る。
マスク特徴とビュー一貫性ラベルを多視点画像から抽出し,まず3次元ガウススティング(3DGS)を用いて各オブジェクト状態の階層的特徴とラベルフィールドを構築する。
次に、3Dガウスプリミティブ上でオブジェクトと部分レベルのクエリを実行し、静的および明瞭な要素を識別し、大域的な変換と局所的な調音パラメータをアベイランスとともに推定する。
論文 参考訳(メタデータ) (2025-04-09T12:36:48Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Nothing But Geometric Constraints: A Model-Free Method for Articulated
Object Pose Estimation [89.82169646672872]
本稿では,ロボットアームの関節構成を,モデルに先入観を持たずにRGBまたはRGB-D画像のシーケンスから推定する,教師なし視覚ベースシステムを提案する。
我々は,古典幾何学的定式化と深層学習を組み合わせることで,この課題を解決するために,極性多剛体制約を拡張した。
論文 参考訳(メタデータ) (2020-11-30T20:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。