論文の概要: ELITE: Experiential Learning and Intent-Aware Transfer for Self-improving Embodied Agents
- arxiv url: http://arxiv.org/abs/2603.24018v1
- Date: Wed, 25 Mar 2026 07:25:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.18207
- Title: ELITE: Experiential Learning and Intent-Aware Transfer for Self-improving Embodied Agents
- Title(参考訳): ELITE:自己改善型身体エージェントのための経験的学習とインテント・アウェア・トランスファー
- Authors: Bingqing Wei, Zhongyu Xia, Dingai Liu, Xiaoyu Zhou, Zhiwei Lin, Yongtao Wang,
- Abstract要約: 視覚言語モデル(VLM)は目覚ましい汎用性を示しているが、それら上に構築された具体的エージェントは複雑なタスクで失敗する。
ELITEは,経験的学習とインテント・アウェア・トランスファー(Intent-Aware Transfer)を具現化したエージェントフレームワークである。
- 参考スコア(独自算出の注目度): 17.131524956793935
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-language models (VLMs) have shown remarkable general capabilities, yet embodied agents built on them fail at complex tasks, often skipping critical steps, proposing invalid actions, and repeating mistakes. These failures arise from a fundamental gap between the static training data of VLMs and the physical interaction for embodied tasks. VLMs can learn rich semantic knowledge from static data but lack the ability to interact with the world. To address this issue, we introduce ELITE, an embodied agent framework with {E}xperiential {L}earning and {I}ntent-aware {T}ransfer that enables agents to continuously learn from their own environment interaction experiences, and transfer acquired knowledge to procedurally similar tasks. ELITE operates through two synergistic mechanisms, \textit{i.e.,} self-reflective knowledge construction and intent-aware retrieval. Specifically, self-reflective knowledge construction extracts reusable strategies from execution trajectories and maintains an evolving strategy pool through structured refinement operations. Then, intent-aware retrieval identifies relevant strategies from the pool and applies them to current tasks. Experiments on the EB-ALFRED and EB-Habitat benchmarks show that ELITE achieves 9\% and 5\% performance improvement over base VLMs in the online setting without any supervision. In the supervised setting, ELITE generalizes effectively to unseen task categories, achieving better performance compared to state-of-the-art training-based methods. These results demonstrate the effectiveness of ELITE for bridging the gap between semantic understanding and reliable action execution.
- Abstract(参考訳): 視覚言語モデル(VLM)は目覚ましい汎用能力を示しているが、それら上に構築されたエージェントは複雑なタスクで失敗し、しばしば重要なステップをスキップし、無効なアクションを提案し、失敗を繰り返している。
これらの失敗は、VLMの静的トレーニングデータと、具体化されたタスクの物理的相互作用の基本的なギャップから生じる。
VLMは静的データから豊富なセマンティック知識を学ぶことができるが、世界と対話する能力に欠ける。
この問題に対処するために、エージェントが自身の環境相互作用経験から継続的に学習し、取得した知識を手続き的に類似したタスクに転送することを可能にする、 {E}xperiential {L}earning と {I}ent-aware {T}ransfer を用いたエンボディエージェントフレームワークである ELITE を紹介した。
ELITEは2つの相乗的メカニズム、すなわち、自己認識的知識構築と意図認識検索によって機能する。
具体的には、自己回帰的知識構築は、実行軌跡から再利用可能な戦略を抽出し、構造化された洗練操作を通じて進化する戦略プールを維持する。
次に、意図認識検索は、プールから関連する戦略を特定し、それらを現在のタスクに適用する。
EB-ALFRED と EB-Habitat のベンチマークでの実験では、ELITE は、オンライン環境での基本的な VLM よりも 9 % と 5 % のパフォーマンス改善を、監督なしで達成している。
教師付き設定では、ELITEは未確認タスクカテゴリを効果的に一般化し、最先端のトレーニングベース手法と比較してパフォーマンスが向上する。
これらの結果は,意味的理解と信頼性のある行動実行のギャップを埋めるためのELITEの有効性を示す。
関連論文リスト
- Real-Time Procedural Learning From Experience for AI Agents [2.543194442104227]
我々は, eXperiences Indexed by State (PRAXIS) によるエージェントの手続き的リコールを提案する。
PRAXISは行動の結果を記憶し、過去のエピソードの環境および内部状態を現在の状態と共同でマッチングすることでそれらを回収する。
PRAXISは、リアルタイムに生成される検索された状態-反応-反例によるエージェントアクション選択を強化する。
論文 参考訳(メタデータ) (2025-11-27T03:51:49Z) - Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。
本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。
提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文 参考訳(メタデータ) (2025-10-22T16:43:29Z) - Weakly-supervised VLM-guided Partial Contrastive Learning for Visual Language Navigation [36.17444261325021]
ビジュアル言語ナビゲーション(VLN)は、エージェントが自然言語命令に基づいて複雑な環境をナビゲートできることに焦点を当てた、Embodied AIの分野における基本的なタスクである。
既存の手法は、VLNシナリオの動的視点と競合する視覚知覚のための事前訓練されたバックボーンモデルに依存している。
Weakly-supervised partial Contrastive Learning (WPCL) は, VLMの微調整を必要とせずに, VLNシナリオの動的視点からオブジェクトを識別する能力を高める手法である。
論文 参考訳(メタデータ) (2025-06-18T11:43:50Z) - Improving LLM Agent Planning with In-Context Learning via Atomic Fact Augmentation and Lookahead Search [48.348209577994865]
大規模言語モデル(LLM)はますます有能になるが、複雑で対話的な環境で効果的に機能するためには、重要なガイダンスや広範な相互作用履歴を必要とすることが多い。
テキスト内学習による計画能力を高める新しいLLMエージェントフレームワークを提案する。
我々のエージェントは、その相互作用軌跡からタスククリティカルな原子事実'を抽出することを学ぶ。
論文 参考訳(メタデータ) (2025-06-10T18:36:31Z) - Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。
本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。
また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文 参考訳(メタデータ) (2025-03-06T03:06:22Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Automated Relational Meta-learning [95.02216511235191]
本稿では,クロスタスク関係を自動的に抽出し,メタ知識グラフを構築する自動リレーショナルメタ学習フレームワークを提案する。
我々は,2次元玩具の回帰と少数ショット画像分類に関する広範な実験を行い,ARMLが最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-01-03T07:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。