論文の概要: Affordance RAG: Hierarchical Multimodal Retrieval with Affordance-Aware Embodied Memory for Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2512.18987v1
- Date: Mon, 22 Dec 2025 02:55:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.597216
- Title: Affordance RAG: Hierarchical Multimodal Retrieval with Affordance-Aware Embodied Memory for Mobile Manipulation
- Title(参考訳): Affordance RAG:モバイル操作のためのAffordance-Aware Embodied Memoryを用いた階層型マルチモーダル検索
- Authors: Ryosuke Korekata, Quanting Xie, Yonatan Bisk, Komei Sugiura,
- Abstract要約: Affordance RAGはゼロショット階層型マルチモーダル検索フレームワークで、事前探索画像からAffordance-Aware Embodied Memoryを構築する。
提案手法は,大規模屋内環境における移動体操作命令の検索性能において,既存の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 20.373596661083152
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we address the problem of open-vocabulary mobile manipulation, where a robot is required to carry a wide range of objects to receptacles based on free-form natural language instructions. This task is challenging, as it involves understanding visual semantics and the affordance of manipulation actions. To tackle these challenges, we propose Affordance RAG, a zero-shot hierarchical multimodal retrieval framework that constructs Affordance-Aware Embodied Memory from pre-explored images. The model retrieves candidate targets based on regional and visual semantics and reranks them with affordance scores, allowing the robot to identify manipulation options that are likely to be executable in real-world environments. Our method outperformed existing approaches in retrieval performance for mobile manipulation instruction in large-scale indoor environments. Furthermore, in real-world experiments where the robot performed mobile manipulation in indoor environments based on free-form instructions, the proposed method achieved a task success rate of 85%, outperforming existing methods in both retrieval performance and overall task success.
- Abstract(参考訳): 本研究では,オープン語彙移動操作の課題に対処するため,ロボットは自由形式の自然言語命令に基づいて,幅広い物体をレセプタクルに運ぶ必要がある。
このタスクは、視覚的意味論と操作行動の可能性を理解することを伴うため、難しい。
これらの課題に対処するために,事前探索画像からAffordance-Aware Embodied Memoryを構築するゼロショット階層型マルチモーダル検索フレームワークであるAffordance RAGを提案する。
このモデルは、地域と視覚のセマンティクスに基づいて候補ターゲットを検索し、それらを可視スコアでリランクし、ロボットが現実の環境で実行可能な操作オプションを特定できるようにする。
提案手法は,大規模屋内環境における移動体操作命令の検索性能において,既存の手法よりも優れていた。
さらに,ロボットが屋内環境における移動操作を行う実環境実験において,提案手法はタスク成功率85%を達成し,検索性能と全体的なタスク成功率の両方において既存手法よりも優れていた。
関連論文リスト
- EL3DD: Extended Latent 3D Diffusion for Language Conditioned Multitask Manipulation [16.468655011980843]
本稿では,ロボットの正確な軌道を生成するために,ビジュモータポリシフレームワーク内での拡散モデルの有用性を活用することを目的とする。
トレーニング中に参照デモを利用することで、ロボットの即時環境内でテキストコマンドによって指定された操作タスクを実行することができる。
論文 参考訳(メタデータ) (2025-11-17T12:47:18Z) - Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference-Scoped Exploration [58.4036440289082]
ハンドオブジェクトモーションキャプチャ(MoCap)は、大規模でコンタクトに富んだデモと、器用なロボットスコープの約束を提供する。
Dexploreは、リポジトリとトラッキングを実行し、MoCapから直接ロボット制御ポリシーを学習する、統一された単一ループ最適化である。
論文 参考訳(メタデータ) (2025-09-11T17:59:07Z) - Subtask-Aware Visual Reward Learning from Segmented Demonstrations [97.80917991633248]
本稿では,新しい報酬学習フレームワークであるReward Learning from Demonstration with Demonstrationsを紹介する。
我々は,映像セグメントとそれに対応するサブタスクに条件付けされた高密度報酬関数を訓練し,地道報酬信号との整合性を確保する。
実験の結果,REDSはメタワールドにおける複雑なロボット操作タスクのベースライン手法よりも優れていた。
論文 参考訳(メタデータ) (2025-02-28T01:25:37Z) - Sim-to-Real Reinforcement Learning for Vision-Based Dexterous Manipulation on Humanoids [56.892520712892804]
本稿では,ヒューマノイドロボットを訓練して3つの巧妙な操作を行う,実用的なシミュレート・トゥ・リアルなRLレシピを提案する。
未確認のオブジェクトやロバストで適応的な政策行動に対して高い成功率を示す。
論文 参考訳(メタデータ) (2025-02-27T18:59:52Z) - Affordance-based Robot Manipulation with Flow Matching [7.51335919610328]
本稿では,ロボット操作支援のためのフレームワークを提案する。
第1に,大規模モデルを下流シーンの空き時間理解タスクに効果的に適用し,第2に,視覚的空き時間モデルに基づいて,効果的にロボット行動軌跡を学習する。
我々は,教師付きフローマッチング手法を用いて,ロボットの行動軌跡を空き時間で案内する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - Learning Hierarchical Interactive Multi-Object Search for Mobile
Manipulation [10.21450780640562]
本稿では,ロボットが扉を開けて部屋をナビゲートし,キャビネットや引き出しの中を探索し,対象物を見つける,インタラクティブな多目的探索タスクを提案する。
これらの新たな課題は、探索されていない環境での操作とナビゲーションのスキルを組み合わせる必要がある。
本研究では,探索,ナビゲーション,操作のスキルを習得する階層的強化学習手法であるHIMOSを提案する。
論文 参考訳(メタデータ) (2023-07-12T12:25:33Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。