論文の概要: Affordance-Aware Interactive Decision-Making and Execution for Ambiguous Instructions
- arxiv url: http://arxiv.org/abs/2602.05273v1
- Date: Thu, 05 Feb 2026 03:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.191986
- Title: Affordance-Aware Interactive Decision-Making and Execution for Ambiguous Instructions
- Title(参考訳): Affordance-Aware Interactive Decision-Making and Execution for Ambiguous Instructions
- Authors: Hengxuan Xu, Fengbo Lan, Zhixin Zhao, Shengjie Wang, Mengqiao Liu, Jieqian Sun, Yu Cheng, Tao Zhang,
- Abstract要約: 本稿では,対話型探索と視覚言語推論を統合したデュアルストリームフレームワークを提案する。
AIDEは10Hzのクローズドループ連続実行において80%以上のタスク計画成功率と95%以上の精度を達成する。
- 参考スコア(独自算出の注目度): 15.272563629215746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Enabling robots to explore and act in unfamiliar environments under ambiguous human instructions by interactively identifying task-relevant objects (e.g., identifying cups or beverages for "I'm thirsty") remains challenging for existing vision-language model (VLM)-based methods. This challenge stems from inefficient reasoning and the lack of environmental interaction, which hinder real-time task planning and execution. To address this, We propose Affordance-Aware Interactive Decision-Making and Execution for Ambiguous Instructions (AIDE), a dual-stream framework that integrates interactive exploration with vision-language reasoning, where Multi-Stage Inference (MSI) serves as the decision-making stream and Accelerated Decision-Making (ADM) as the execution stream, enabling zero-shot affordance analysis and interpretation of ambiguous instructions. Extensive experiments in simulation and real-world environments show that AIDE achieves the task planning success rate of over 80\% and more than 95\% accuracy in closed-loop continuous execution at 10 Hz, outperforming existing VLM-based methods in diverse open-world scenarios.
- Abstract(参考訳): 既存の視覚言語モデル(VLM)ベースの手法では,タスク関連物体(例えば,カップや飲み物を「喉の渇き」として識別するなど)を対話的に識別することで,不明瞭な人間の指示の下で,ロボットが未知の環境を探索し,行動することを可能にすることが課題である。
この課題は、非効率な推論と環境相互作用の欠如に起因し、リアルタイムタスクの計画と実行を妨げている。
そこで我々は,多段階推論(Multi-Stage Inference, MSI)が意思決定ストリームとして機能し,アクセラレーション意思決定(Accelerated Decision-Making, ADM)が実行ストリームとして機能し,ゼロショットのアベイランス分析と曖昧な指示の解釈を可能にする,双方向ストリームフレームワークであるAIDEを提案する。
シミュレーションおよび実世界の環境における大規模な実験により、AIDEは10Hzでのクローズドループ連続実行において、80\%以上、95%以上の精度でタスク計画の成功率を達成し、様々なオープンワールドシナリオにおいて既存のVLMベースの手法よりも優れていることが示された。
関連論文リスト
- LEGS-POMDP: Language and Gesture-Guided Object Search in Partially Observable Environments [7.458277072199384]
部分観測可能環境(LEGS-POMDP)におけるLanguagEとgesture-Guided Object Search
本稿では,LanguagE と Gesture-Guided Object Search in partially Observable Environments (LEGS-POMDP)を紹介した。
シミュレーションでは、マルチモーダル融合は単調なベースラインを著しく上回り、挑戦的な環境や対象カテゴリーで平均89%の成功率を達成する。
論文 参考訳(メタデータ) (2026-03-05T01:04:23Z) - Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Exploratory Retrieval-Augmented Planning For Continual Embodied Instruction Following [30.757285244293794]
本研究では,動的非定常環境におけるエンボディエージェントのタスクに追従した継続的指導に対処するために,探索的検索型拡張計画(ExRAP)フレームワークを提案する。
このフレームワークは、物理環境を効率的に探索し、環境コンテキスト記憶を確立することにより、大規模言語モデルの具体的推論能力を高める。
目標達成率と実行効率の両面で、最先端のLCMベースのタスク計画アプローチを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-10T01:39:51Z) - What to Do Next? Memorizing skills from Egocentric Instructional Video [43.59787683244105]
本稿では,新しいタスクである対話型アクションプランニングを提案し,トポロジカルアプライアンスメモリとトランスフォーマーアーキテクチャを組み合わせたアプローチを提案する。
実験の結果,提案手法は意味のある表現を学習し,その結果,行動偏差が発生すると性能が向上し,頑健になることが示された。
論文 参考訳(メタデータ) (2025-07-01T22:53:41Z) - Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z) - Unlocking Smarter Device Control: Foresighted Planning with a World Model-Driven Code Execution Approach [82.27842884709378]
本研究では,自然言語理解と構造化推論を優先し,エージェントの環境に対するグローバルな理解を高める枠組みを提案する。
本手法は,従来の手法,特にタスク成功率の44.4%向上を達成している。
論文 参考訳(メタデータ) (2025-05-22T09:08:47Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。