論文の概要: Dejavu: Post-Deployment Learning for Embodied Agents via Experience Feedback
- arxiv url: http://arxiv.org/abs/2510.10181v1
- Date: Sat, 11 Oct 2025 11:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.829425
- Title: Dejavu: Post-Deployment Learning for Embodied Agents via Experience Feedback
- Title(参考訳): Dejavu: 経験フィードバックによる身体的エージェントのデプロイ後学習
- Authors: Shaokai Wu, Yanbiao Ji, Qiuchang Li, Zhiyi Zhang, Qichen He, Wenyuan Xie, Guodong Zhang, Bayram Bayramli, Yue Ding, Hongtao Lu,
- Abstract要約: 本稿では,デジャヴ(Dejavu)というポストデプロイ学習フレームワークを提案する。
EFN(Experience Feedback Network)を採用し、凍結したVision-Language-Actionポリシーを、検索した実行メモリで拡張する。
EFNは文脈的に成功した事前アクション体験と条件アクション予測を自動的に識別する。
- 参考スコア(独自算出の注目度): 15.925059945241108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied agents face a fundamental limitation: once deployed in real-world environments to perform specific tasks, they are unable to acquire new useful knowledge to enhance task performance. In this paper, we propose a general post-deployment learning framework called Dejavu, which employs an Experience Feedback Network (EFN) and augments the frozen Vision-Language-Action (VLA) policy with retrieved execution memories. EFN automatically identifies contextually successful prior action experiences and conditions action prediction on this retrieved guidance. We adopt reinforcement learning with semantic similarity rewards on EFN to ensure that the predicted actions align with past successful behaviors under current observations. During deployment, EFN continually enriches its memory with new trajectories, enabling the agent to exhibit "learning from experience" despite fixed weights. Experiments across diverse embodied tasks show that EFN significantly improves adaptability, robustness, and success rates over frozen baselines. These results highlight a promising path toward embodied agents that continually refine their behavior after deployment.
- Abstract(参考訳): エージェントは、特定のタスクを実行するために現実世界の環境にデプロイされると、タスクパフォーマンスを向上させるために新しい有用な知識を得ることができない。
本稿では,経験フィードバックネットワーク(EFN)を活用し,凍結したビジョン・ランゲージ・アクション(VLA)ポリシーを拡張した,Dejavuというポストデプロイ学習フレームワークを提案する。
EFNは、この検索したガイダンスに基づいて、コンテキスト的に成功した事前アクションエクスペリエンスと条件アクション予測を自動的に識別する。
我々はEFNに意味的類似性報酬を伴う強化学習を採用し、予測された行動が現在の観測下での過去の成功行動と一致することを保証する。
デプロイ中、EFNは新しいトラジェクトリでメモリを継続的に強化し、固定重量にもかかわらずエージェントは"経験から学ぶ"ことができる。
多様な実施タスクに対する実験により、EFNは凍結ベースラインよりも適応性、堅牢性、成功率を大幅に改善することが示された。
これらの結果は、デプロイ後の動作を継続的に改善するエンボディエージェントへの、有望な道のりを浮き彫りにしている。
関連論文リスト
- InfoSteer: Steering Information Utility in Language Model Post-Training [7.756342860929851]
本稿では,学習後の言語モデル(LM)におけるパラメトリック情報の利用を促す軽量な手法を提案する。
この単純なガイダンスは、Qwen、Gemma、Llamaなど、さまざまなモデルファミリで一貫したパフォーマンス改善を提供します。
我々の研究は、バニラポストトレーニングが事前学習の可能性を十分に活用していないこと、そして潜在表現空間におけるLMの操舵は、有望なアプローチであることを示している。
論文 参考訳(メタデータ) (2025-07-07T16:13:21Z) - VITA: Zero-Shot Value Functions via Test-Time Adaptation of Vision-Language Models [49.78447737655287]
VITAはゼロショット値関数学習法であり、テスト時間適応によって両方の能力を増強する。
オフライン強化学習において,VITAのゼロショット値推定が報酬形成に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-11T18:05:33Z) - Active Test-time Vision-Language Navigation [60.69722522420299]
ATENAは、不確実なナビゲーション結果に対するエピソードフィードバックを通じて、実用的な人間とロボットのインタラクションを可能にする、テスト時のアクティブな学習フレームワークである。
特にATENAは、成功エピソードにおける確実性を高め、失敗エピソードにおいてそれを減らすことを学び、不確実性の校正を改善している。
さらに,自信ある予測に基づいて,エージェントがナビゲーション結果を評価することができる自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-07T02:24:44Z) - Vision-Language Navigation with Continual Learning [10.850410419782424]
視覚言語ナビゲーション(VLN)は、組み込みインテリジェンスにおいて重要なドメインである。
本稿では,この課題に対処するために,ビジョンランゲージナビゲーションと連続学習パラダイムを提案する。
このパラダイムでは、エージェントは、以前獲得した知識を維持しながら、新たな環境を漸進的に学習する。
論文 参考訳(メタデータ) (2024-09-04T09:28:48Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - Generalization in Visual Reinforcement Learning with the Reward Sequence
Distribution [98.67737684075587]
部分的に観察されたマルコフ決定過程(POMDP)の一般化は視覚強化学習(VRL)の成功に不可欠である
開始観測に基づく報酬系列分布と事前定義された後続行動系列(RSD-OA)を提案する。
実験により, RSD-OAに基づく表現学習手法は, 目に見えない環境における一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-02-19T15:47:24Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Successor Feature Representations [20.91847255769988]
強化学習における伝達は、経験豊富なソースタスクからの知識を用いて、目標タスクにおける学習パフォーマンスを改善することを目的としている。
継承表現(SR)とその拡張継承特徴(SF)は、タスク間で報酬関数が変化する領域において顕著な伝達機構である。
本稿では,後継特徴量の累積割引確率を学習したSRの新たな定式化を提案する。
論文 参考訳(メタデータ) (2021-10-29T12:01:48Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。