論文の概要: Meta-RL Induces Exploration in Language Agents
- arxiv url: http://arxiv.org/abs/2512.16848v1
- Date: Thu, 18 Dec 2025 18:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.203078
- Title: Meta-RL Induces Exploration in Language Agents
- Title(参考訳): メタRLは言語エージェントの探索を誘導する
- Authors: Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic,
- Abstract要約: 本稿では,大規模言語モデル(LLM)エージェントをテスト時に環境フィードバックから積極的に探索し,学習することを可能にする,一般的なメタRLフレームワークであるLaMerを紹介する。
LaMerは、それぞれ11%、14%、19%がSokoban、MineSweeper、Webshopで、RLベースラインよりもパフォーマンスが大幅に向上した。
- 参考スコア(独自算出の注目度): 23.748757951967352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has enabled the training of large language model (LLM) agents to interact with the environment and to solve multi-turn long-horizon tasks. However, the RL-trained agents often struggle in tasks that require active exploration and fail to efficiently adapt from trial-and-error experiences. In this paper, we present LaMer, a general Meta-RL framework that enables LLM agents to actively explore and learn from the environment feedback at test time. LaMer consists of two key components: (i) a cross-episode training framework to encourage exploration and long-term rewards optimization; and (ii) in-context policy adaptation via reflection, allowing the agent to adapt their policy from task feedback signal without gradient update. Experiments across diverse environments show that LaMer significantly improves performance over RL baselines, with 11%, 14%, and 19% performance gains on Sokoban, MineSweeper and Webshop, respectively. Moreover, LaMer also demonstrates better generalization to more challenging or previously unseen tasks compared to the RL-trained agents. Overall, our results demonstrate that Meta-RL provides a principled approach to induce exploration in language agents, enabling more robust adaptation to novel environments through learned exploration strategies.
- Abstract(参考訳): 強化学習(RL)により、大規模言語モデル(LLM)エージェントが環境と相互作用し、マルチターン長軸タスクを解くことができる。
しかし、RL訓練されたエージェントは、活発な探索を必要とし、試行錯誤経験から効率的に適応できないタスクに苦しむことが多い。
本稿では,LLMエージェントがテスト時に環境フィードバックを積極的に探索し,学習することを可能にする,一般的なメタRLフレームワークであるLaMerを紹介する。
LaMerは2つの重要なコンポーネントから構成される。
一 探究及び長期報酬最適化を促進するための横断訓練の枠組み
(2)リフレクションによるコンテキスト内ポリシー適応により、エージェントは、勾配更新なしでタスクフィードバック信号からポリシーを適応することができる。
さまざまな環境での実験では、LaMerはRLベースラインよりもパフォーマンスが大幅に向上し、それぞれ11%、14%、そして19%のパフォーマンスがSokoban、MineSweeper、Webshopで向上している。
さらに、LaMerはRL訓練されたエージェントと比較して、より難しい、あるいは以前は目に見えなかったタスクへのより良い一般化も示している。
全体として,メタRLは言語エージェントの探索を誘導する原則的アプローチを提供し,学習した探索戦略を通じて,新しい環境へのより堅牢な適応を可能にすることを実証した。
関連論文リスト
- AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - LLM-Explorer: A Plug-in Reinforcement Learning Policy Exploration Enhancement Driven by Large Language Models [42.53342297631436]
政策探究は強化学習(RL)において重要であり、既存のアプローチには欲求、ガウス過程などが含まれる。
大規模言語モデル(LLM)を用いたタスク固有探索戦略を適応的に生成するLLM-Explorerを設計する。
我々の設計は、DQNシリーズ、DDPG、TD3など、広く使われているRLアルゴリズムと互換性のあるプラグインモジュールである。
論文 参考訳(メタデータ) (2025-05-21T09:24:23Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Continuous Coordination As a Realistic Scenario for Lifelong Learning [6.044372319762058]
ゼロショット設定と少数ショット設定の両方をサポートするマルチエージェント生涯学習テストベッドを導入する。
最近のMARL法、および制限メモリおよび計算における最新のLLLアルゴリズムのベンチマークを評価します。
我々は経験的に、我々の設定で訓練されたエージェントは、以前の作業による追加の仮定なしに、未発見のエージェントとうまく協調できることを示します。
論文 参考訳(メタデータ) (2021-03-04T18:44:03Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。