論文の概要: RePlan-Bot: Multi-Level Replanning for Embodied Instruction Following
- arxiv url: http://arxiv.org/abs/2605.25851v1
- Date: Mon, 25 May 2026 13:44:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.224219
- Title: RePlan-Bot: Multi-Level Replanning for Embodied Instruction Following
- Title(参考訳): RePlan-Bot: Embodied Instructionのマルチレベルリプラン
- Authors: Xicheng Gong, Guozheng Sun, Peiran Xu, Yadong Mu,
- Abstract要約: EIF(Embodied instruction following)は、対話型3D環境において複雑な自然言語コマンドを理解し実行する必要がある。
RePlan-Botはタスク実行全体を通してマルチレベルかつ連続的な再計画を行う新しいEDFエージェントである。
- 参考スコア(独自算出の注目度): 39.9780803736704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied instruction following (EIF) requires agents to understand and execute complex natural language commands within interactive 3D environments. Despite recent advances, existing methods often fail in long-horizon planning and handling irreversible state changes, resulting in low task success rates. To address these challenges, we introduce RePlan-Bot, a novel EIF agent that performs multi-level, continuous replanning throughout task execution. RePlan-Bot integrates a high-level LLM-based auditor for dynamic sub-goal adjustments guided by environmental feedback, a commonsense-guided search mechanism based on a multi-layered instance map for precise and structured object localization, and a lightweight ViT-based corrector to preemptively fix risky low-level actions. Evaluated on the ALFRED benchmark, RePlan-Bot achieves state-of-the-art performance in both seen and unseen environments, demonstrating superior adaptability and reliability.
- Abstract(参考訳): EIF(Embodied instruction following)は、対話型3D環境において複雑な自然言語コマンドを理解し実行する必要がある。
近年の進歩にもかかわらず、既存の手法は長期計画において失敗し、不可逆的な状態変化に対処し、タスクの成功率を低くする。
これらの課題に対処するため,タスク実行全体を通してマルチレベルかつ連続的な再計画を行う新しいEDFエージェントであるRePlan-Botを紹介した。
RePlan-Bot は環境フィードバックによって誘導される動的サブゴール調整のための高レベル LLM ベースの監査装置、高精度で構造化されたオブジェクトローカライゼーションのための多層インスタンスマップに基づくコモンセンス誘導探索機構、リスクの高い低レベルアクションをプリエンプティブに修正するための軽量な ViT ベースの修正器を統合している。
ALFREDベンチマークに基づいて評価されたRePlan-Botは、目に見える環境と見えない環境の両方で最先端のパフォーマンスを実現し、優れた適応性と信頼性を示す。
関連論文リスト
- Navigating the Clutter: Waypoint-Based Bi-Level Planning for Multi-Robot Systems [54.887871365121775]
乱雑な環境におけるマルチロボット制御は、複雑な物理的制約を伴う難しい問題である。
タスクとモーションプランニングを協調的に最適化するハイブリッドマルチロボット制御フレームワークを提案する。
我々のアプローチは、動作に依存しないベースラインとVLAベースのベースラインよりもタスクの成功を継続的に改善する。
論文 参考訳(メタデータ) (2026-04-22T22:58:47Z) - ReCAP: Recursive Context-Aware Reasoning and Planning for Large Language Model Agents [61.51091799997476]
ReCAP(Recursive Context-Aware Reasoning and Planning)は,大規模言語モデル(LLM)における推論と計画のためのコンテキストを共有する階層型フレームワークである。
ReCAPは、プラン-アヘッド分解、親プランの構造化された再注入、メモリ効率の高い実行という3つの重要なメカニズムを組み合わせる。
実験により、ReCAPは様々なロングホライゾン推論ベンチマークにおけるサブゴールアライメントと成功率を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-10-27T20:03:55Z) - HiPlan: Hierarchical Planning for LLM-Based Agents with Adaptive Global-Local Guidance [11.621973074884002]
HiPlanは、大規模言語モデル(LLM)ベースのエージェントのための階層的計画フレームワークである。
複雑なタスクを、一般的な方向のためのマイルストーンアクションガイドと、詳細なアクションのためのステップワイズヒントに分解する。
オフラインのフェーズでは、専門家によるデモンストレーションからマイルストーンライブラリを構築し、構造化されたエクスペリエンスの再利用を可能にします。
実行フェーズでは、過去のマイルストーンからの軌道セグメントを動的に適応してステップワイズヒントを生成する。
論文 参考訳(メタデータ) (2025-08-26T14:37:48Z) - Grounding Language Models with Semantic Digital Twins for Robotic Planning [6.474368392218828]
セマンティック・デジタル・ツインズ(SDT)とLarge Language Models(LLM)を統合する新しいフレームワークを提案する。
提案フレームワークは,高レベル推論とセマンティック環境理解を効果的に組み合わせ,不確実性と障害に直面した信頼性の高いタスク完了を実現する。
論文 参考訳(メタデータ) (2025-06-19T17:38:00Z) - LangPert: Detecting and Handling Task-level Perturbations for Robust Object Rearrangement [21.236557779562794]
LangPertはTLP(Task-Level Perturbations)の検出と緩和を目的とした言語ベースのフレームワークである。
LangPertはVisual Language Model (VLM)を統合し、ポリシーのスキル実行と環境TLPを包括的に監視する。
実験の結果,LangPertはベースライン法よりも多種多様なTLP状況を効果的に処理できることがわかった。
論文 参考訳(メタデータ) (2025-04-14T05:39:15Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - AdaPlanner: Adaptive Planning from Feedback with Language Models [56.367020818139665]
大規模言語モデル(LLM)は、最近、シーケンシャルな意思決定タスクの自律的エージェントとして機能する可能性を実証している。
本研究では,LLMエージェントが環境フィードバックに応じて自己生成計画を適応的に改善することのできるクローズドループアプローチであるAdaPlannerを提案する。
幻覚を緩和するために,様々なタスク,環境,エージェント機能にまたがる計画生成を容易にするコードスタイルのLCMプロンプト構造を開発した。
論文 参考訳(メタデータ) (2023-05-26T05:52:27Z) - Plan, Eliminate, and Track -- Language Models are Good Teachers for
Embodied Agents [99.17668730578586]
事前訓練された大言語モデル(LLM)は、世界に関する手続き的な知識をキャプチャする。
Plan, Eliminate, and Track (PET)フレームワークはタスク記述をハイレベルなサブタスクのリストに変換する。
PETフレームワークは、人間の目標仕様への一般化のために、SOTAよりも15%改善されている。
論文 参考訳(メタデータ) (2023-05-03T20:11:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。