論文の概要: Agent Learning via Early Experience
- arxiv url: http://arxiv.org/abs/2510.08558v1
- Date: Thu, 09 Oct 2025 17:59:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.30295
- Title: Agent Learning via Early Experience
- Title(参考訳): 初歩的体験によるエージェント学習
- Authors: Kai Zhang, Xiangchao Chen, Bo Liu, Tianci Xue, Zeyi Liao, Zhihan Liu, Xiyao Wang, Yuting Ning, Zhaorun Chen, Xiaohan Fu, Jian Xie, Yuxuan Sun, Boyu Gou, Qi Qi, Zihang Meng, Jianwei Yang, Ning Zhang, Xian Li, Ashish Shah, Dat Huynh, Hengduo Li, Zi Yang, Sara Cao, Lawrence Jang, Shuyan Zhou, Jiacheng Zhu, Huan Sun, Jason Weston, Yu Su, Yifan Wu,
- Abstract要約: 言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
- 参考スコア(独自算出の注目度): 93.83579011718858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A long-term goal of language agents is to learn and improve through their own experience, ultimately outperforming humans in complex, real-world tasks. However, training agents from experience data with reinforcement learning remains difficult in many environments, which either lack verifiable rewards (e.g., websites) or require inefficient long-horizon rollouts (e.g., multi-turn tool use). As a result, most current agents rely on supervised fine-tuning on expert data, which is challenging to scale and generalizes poorly. This limitation stems from the nature of expert demonstrations: they capture only a narrow range of scenarios and expose the agent to limited environment diversity. We address this limitation with a middle-ground paradigm we call early experience: interaction data generated by the agent's own actions, where the resulting future states serve as supervision without reward signals. Within this paradigm we study two strategies of using such data: (1) Implicit world modeling, which uses collected states to ground the policy in environment dynamics; and (2) Self-reflection, where the agent learns from its suboptimal actions to improve reasoning and decision-making. We evaluate across eight diverse environments and multiple model families. Our approaches consistently improve effectiveness and out-of-domain generalization, highlighting the value of early experience. Moreover, in environments with verifiable rewards, our results provide promising signals that early experience offers a strong foundation for subsequent reinforcement learning, positioning it as a practical bridge between imitation learning and fully experience-driven agents.
- Abstract(参考訳): 言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
しかし、強化学習による経験データからのトレーニングエージェントは、検証可能な報酬(ウェブサイトなど)の欠如や、非効率な長期ロールアウト(マルチターンツールの使用など)を必要とする多くの環境において、依然として困難である。
その結果、現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
この制限は専門家によるデモンストレーションの性質に起因しており、限られた範囲のシナリオのみをキャプチャし、エージェントを限られた環境多様性に公開する。
我々は、この制限を、我々が初期経験と呼ぶ中核的なパラダイムで解決する:エージェント自身のアクションによって生成されたインタラクションデータ。
本パラダイムでは,(1)環境力学における政策の基盤として収集された状態を利用するインプリシト・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
我々は8つの多様な環境と複数のモデルファミリーを評価した。
当社のアプローチは、早期体験の価値を浮き彫りにして、有効性とドメイン外の一般化を継続的に改善します。
さらに、検証可能な報奨のある環境では、初期経験が後続の強化学習の強力な基盤となり、模倣学習と完全経験主体のエージェントの実践的な橋渡しとして位置づけられるという有望なシグナルが得られている。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization [66.22117723598872]
マルチモーダルWebエージェントの開発を容易にするために設計されたオープンソースフレームワークを紹介する。
まず、基本モデルを模倣学習で訓練し、基礎能力を得る。
次に、エージェントにオープンウェブを探索させ、その軌道に関するフィードバックを収集する。
論文 参考訳(メタデータ) (2024-10-25T15:01:27Z) - "Give Me an Example Like This": Episodic Active Reinforcement Learning from Demonstrations [3.637365301757111]
専門家デモ(RLED)からの強化学習(Reinforcement Learning from Expert Demonstrations)のような手法は、学習プロセス中のエージェント探索を促進するために外部の専門家によるデモンストレーションを導入します。
学習にとって最も有益な人間のデモのベストセットをどうやって選ぶかが、大きな関心事になります。
本稿では,学習エージェントが軌跡に基づく特徴空間において,専門家による実演を最適化したクエリを生成できるアルゴリズムEARLYを提案する。
論文 参考訳(メタデータ) (2024-06-05T08:52:21Z) - Maximum diffusion reinforcement learning [7.334017970483869]
相関は機械学習に根本的な課題を生み出す。
エージェントのシーケンシャルな経験からデータが直接収集される強化学習では、この仮定の違反は避けられないことが多い。
エージェントエクスペリエンスを関連付けることで、継続的デプロイメントにおけるシングルショット学習を確実に実現します。
論文 参考訳(メタデータ) (2023-09-26T22:14:56Z) - ExpeL: LLM Agents Are Experiential Learners [57.13685954854463]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Co-Imitation Learning without Expert Demonstration [39.988945772085465]
我々は,エージェントの過去の優れた経験を専門家のデモンストレーションなしで活用するための,CoIL(Co-Imitation Learning)と呼ばれる新しい学習フレームワークを提案する。
経験は有用か誤解を招く可能性があるが、期待される値関数の利得によって各経験の潜在的有用性を評価することを提案する。
各種課題に対する実験結果から,提案したコイミテーション学習フレームワークの有意な優位性を示した。
論文 参考訳(メタデータ) (2021-03-27T06:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。