論文の概要: Retrieval-Augmented Robots via Retrieve-Reason-Act
- arxiv url: http://arxiv.org/abs/2603.02688v1
- Date: Tue, 03 Mar 2026 07:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.687639
- Title: Retrieval-Augmented Robots via Retrieve-Reason-Act
- Title(参考訳): Retrieve-Reason-Actによる検索ロボット
- Authors: Izat Temiraliev, Diji Yang, Yi Zhang,
- Abstract要約: 我々は、ロボットが受動的執行者からアクティブな情報検索ユーザーへと進化する必要があると主張している。
以前のデモが存在しない厳密なゼロショット設定では、ロボットは重要な情報ギャップに直面している。
このパラダイムをRetrieval-Augmented Robotics (RAR) と定義し,ロボットに情報探索機能を持たせる。
- 参考スコア(独自算出の注目度): 5.93914911947526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To achieve general-purpose utility, we argue that robots must evolve from passive executors into active Information Retrieval users. In strictly zero-shot settings where no prior demonstrations exist, robots face a critical information gap, such as the exact sequence required to assemble a complex furniture kit, that cannot be satisfied by internal parametric knowledge (common sense) or past internal memory. While recent robotic works attempt to use search before action, they primarily focus on retrieving past kinematic trajectories (analogous to searching internal memory) or text-based safety rules (searching for constraints). These approaches fail to address the core information need of active task construction: acquiring unseen procedural knowledge from external, unstructured documentation. In this paper, we define the paradigm as Retrieval-Augmented Robotics (RAR), empowering the robot with the information-seeking capability that bridges the gap between visual documentation and physical actuation. We formulate the task execution as an iterative Retrieve-Reason-Act loop: the robot or embodied agent actively retrieves relevant visual procedural manuals from an unstructured corpus, grounds the abstract 2D diagrams to 3D physical parts via cross-modal alignment, and synthesizes executable plans. We validate this paradigm on a challenging long-horizon assembly benchmark. Our experiments demonstrate that grounding robotic planning in retrieved visual documents significantly outperforms baselines relying on zero-shot reasoning or few-shot example retrieval. This work establishes the basis of RAR, extending the scope of Information Retrieval from answering user queries to driving embodied physical actions.
- Abstract(参考訳): 汎用的なユーティリティを実現するためには、ロボットは受動的実行者からアクティブな情報検索ユーザーへと進化する必要があると論じる。
従来のデモが存在しない厳密なゼロショット設定では、ロボットは複雑な家具キットを組み立てるのに必要な正確なシーケンスのような重要な情報ギャップに直面し、内部パラメトリック知識(常識)や過去の内部記憶によって満足できない。
最近のロボットは、動作の前に検索を使おうとするが、それらは主に、過去の運動軌跡(内部記憶の探索に類似した)やテキストベースの安全規則(制約を探すこと)の検索に焦点を当てている。
これらのアプローチは、アクティブなタスク構築のコア情報の必要性に対処することができない。
本稿では,このパラダイムをRetrieval-Augmented Robotics (RAR) と定義し,視覚的ドキュメントと身体運動のギャップを埋める情報探索機能を備えたロボットに力を与える。
ロボットまたはエンボディエージェントは、非構造化コーパスから関連した視覚的手続きマニュアルを積極的に回収し、抽象的な2D図を3次元の物理部品に相互アライメントして合成し、実行可能な計画を合成する。
我々は、このパラダイムを挑戦的なロングホライズンアセンブリベンチマークで検証する。
本実験は,検索した視覚文書におけるロボット計画の基盤化が,ゼロショット推論や少数ショット例検索に頼ってベースラインを著しく上回っていることを示す。
この研究は、RARの基礎を確立し、ユーザクエリの応答から具体的物理アクションの実行まで、情報検索の範囲を広げる。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Affordance RAG: Hierarchical Multimodal Retrieval with Affordance-Aware Embodied Memory for Mobile Manipulation [20.373596661083152]
Affordance RAGはゼロショット階層型マルチモーダル検索フレームワークで、事前探索画像からAffordance-Aware Embodied Memoryを構築する。
提案手法は,大規模屋内環境における移動体操作命令の検索性能において,既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-12-22T02:55:25Z) - Is Single-View Mesh Reconstruction Ready for Robotics? [78.14584238127338]
本研究では,ロボット操作のための物理シミュレータを用いたリアルタイム計画と動的予測のためのディジタル双対生成の実現の可能性について,単一ビューメッシュ再構成モデルの評価を行った。
我々の研究は、コンピュータビジョンの進歩とロボティクスの必要性の間に重要なギャップがあることを浮き彫りにし、この交差点における将来の研究を導く。
論文 参考訳(メタデータ) (2025-05-23T14:35:56Z) - Learning Object Properties Using Robot Proprioception via Differentiable Robot-Object Interaction [52.12746368727368]
微分可能シミュレーションは、システム識別の強力なツールとなっている。
本手法は,オブジェクト自体のデータに頼ることなく,ロボットからの情報を用いてオブジェクト特性を校正する。
低コストなロボットプラットフォームにおける本手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-10-04T20:48:38Z) - Tiny Robotics Dataset and Benchmark for Continual Object Detection [6.4036245876073234]
小型ロボットプラットフォームにおける物体検出システムの連続学習能力を評価するための新しいベンチマークを提案する。
この結果は,小型ロボットにおける物体検出のための堅牢で効率的な連続学習戦略を開発する上での課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-24T16:21:27Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - SEAL: Semantic Frame Execution And Localization for Perceiving Afforded
Robot Actions [5.522839151632667]
本稿では,ロボット操作行動のセマンティックフレーム表現を拡張し,セマンティックフレーム実行と局所化の問題をグラフィカルモデルとして導入する。
SEAL問題に対して、ロボットに与えられた行動の場所として、有限のセマンティックフレームに対する信念を維持するための非パラメトリックセマンティックフレームマッピング(SeFM)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2023-03-24T15:25:41Z) - Can Foundation Models Perform Zero-Shot Task Specification For Robot
Manipulation? [54.442692221567796]
タスク仕様は、熟練していないエンドユーザの関与とパーソナライズされたロボットの採用に不可欠である。
タスク仕様に対する広く研究されているアプローチは、目標を通じて、コンパクトな状態ベクトルまたは同じロボットシーンのゴールイメージを使用することである。
そこで本研究では,人間の指定や使用が容易な目標仕様の代替的,より汎用的な形式について検討する。
論文 参考訳(メタデータ) (2022-04-23T19:39:49Z) - Memory-based gaze prediction in deep imitation learning for robot
manipulation [2.857551605623957]
提案アルゴリズムは、逐次データに基づく視線推定にTransformerベースの自己アテンションアーキテクチャを用いてメモリを実装している。
提案手法は,従来の状態の記憶を必要とする実ロボット多目的操作タスクを用いて評価した。
論文 参考訳(メタデータ) (2022-02-10T07:30:08Z) - Integrated Benchmarking and Design for Reproducible and Accessible
Evaluation of Robotic Agents [61.36681529571202]
本稿では,開発とベンチマークを統合した再現性ロボット研究の新しい概念について述べる。
このセットアップの中心的なコンポーネントの1つはDuckietown Autolabであり、これは比較的低コストで再現可能な標準化されたセットアップである。
本研究では,インフラを用いて実施した実験の再現性を解析し,ロボットのハードウェアや遠隔実験室間でのばらつきが低いことを示す。
論文 参考訳(メタデータ) (2020-09-09T15:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。