論文の概要: MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation
- arxiv url: http://arxiv.org/abs/2603.03680v1
- Date: Wed, 04 Mar 2026 03:14:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.167189
- Title: MAGE: Meta-Reinforcement Learning for Language Agents toward Strategic Exploration and Exploitation
- Title(参考訳): MAGE:戦略的探索と爆発に向けた言語エージェントのためのメタ強化学習
- Authors: Lu Yang, Zelai Xu, Minyang Xie, Jiaxuan Gao, Zhao Shok, Yu Wang, Yi Wu,
- Abstract要約: 本稿では,LLMエージェントを戦略的探索と活用に活用するメタRLフレームワークであるMAGEを提案する。
MAGEは、インタラクション履歴とリフレクションをコンテキストウィンドウに統合するマルチエピソードトレーニングシステムを利用している。
実験結果から,MAGEは探索作業と搾取作業の両方において,既存のベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 11.222602737031101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) agents have demonstrated remarkable proficiency in learned tasks, yet they often struggle to adapt to non-stationary environments with feedback. While In-Context Learning and external memory offer some flexibility, they fail to internalize the adaptive ability required for long-term improvement. Meta-Reinforcement Learning (meta-RL) provides an alternative by embedding the learning process directly within the model. However, existing meta-RL approaches for LLMs focus primarily on exploration in single-agent settings, neglecting the strategic exploitation necessary for multi-agent environments. We propose MAGE, a meta-RL framework that empowers LLM agents for strategic exploration and exploitation. MAGE utilizes a multi-episode training regime where interaction histories and reflections are integrated into the context window. By using the final episode reward as the objective, MAGE incentivizes the agent to refine its strategy based on past experiences. We further combine population-based training with an agent-specific advantage normalization technique to enrich agent diversity and ensure stable learning. Experiment results show that MAGE outperforms existing baselines in both exploration and exploitation tasks. Furthermore, MAGE exhibits strong generalization to unseen opponents, suggesting it has internalized the ability for strategic exploration and exploitation. Code is available at https://github.com/Lu-Yang666/MAGE.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、学習タスクにおいて顕著な習熟度を示してきたが、フィードバックのある非定常環境への適応に苦慮することが多い。
In-Context Learningと外部メモリはある程度の柔軟性を提供するが、長期的な改善に必要な適応能力の内部化には失敗している。
メタ強化学習(Meta-Reinforcement Learning, メタ強化学習)は、学習プロセスをモデルに直接組み込むことによって、代替手段を提供する。
しかし、LLMの既存のメタRLアプローチは、主に単一エージェント環境での探索に焦点を当てており、マルチエージェント環境に必要な戦略的搾取は無視されている。
本稿では,LLMエージェントを戦略的探索と活用に活用するメタRLフレームワークであるMAGEを提案する。
MAGEは、インタラクション履歴とリフレクションをコンテキストウィンドウに統合するマルチエピソードトレーニングシステムを利用している。
最終回報酬を目的として使用することにより、MAGEはエージェントに過去の経験に基づいて戦略を洗練させるインセンティブを与える。
さらに,人口ベーストレーニングとエージェント固有の優位正規化技術を組み合わせて,エージェントの多様性を充実させ,安定した学習を確保する。
実験結果から,MAGEは探索作業と搾取作業の両方において,既存のベースラインよりも優れていた。
さらに、MAGEは目に見えない相手に対して強力な一般化を示し、戦略的な探索と搾取の能力を内部化したことを示唆している。
コードはhttps://github.com/Lu-Yang666/MAGEで入手できる。
関連論文リスト
- Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文 参考訳(メタデータ) (2026-03-02T16:28:39Z) - Meta-RL Induces Exploration in Language Agents [23.748757951967352]
本稿では,大規模言語モデル(LLM)エージェントをテスト時に環境フィードバックから積極的に探索し,学習することを可能にする,一般的なメタRLフレームワークであるLaMerを紹介する。
LaMerは、それぞれ11%、14%、19%がSokoban、MineSweeper、Webshopで、RLベースラインよりもパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2025-12-18T18:22:17Z) - From Experience to Strategy: Empowering LLM Agents with Trainable Graph Memory [48.22750809620306]
大規模言語モデル(LLM)に基づくエージェントは、自律的なタスク解決において顕著な可能性を示している。
本稿では,エージェント中心型,トレーニング可能な,多層グラフメモリフレームワークを提案する。
コンテクストメモリがLLMの情報活用能力をいかに向上させるかを示す。
論文 参考訳(メタデータ) (2025-11-11T03:36:33Z) - AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning [129.44038804430542]
本稿では,マルチターン対話型意思決定のためのLLMエージェントをRLで学習する新しいフレームワークであるAgentGym-RLを紹介する。
本研究では,探索-探索バランスと安定したRL最適化のためのトレーニング手法であるScalingInter-RLを提案する。
当社のエージェントは、さまざまな環境にまたがる27のタスクで、商用モデルにマッチするか、超えています。
論文 参考訳(メタデータ) (2025-09-10T16:46:11Z) - ReMA: Learning to Meta-think for LLMs with Multi-Agent Reinforcement Learning [53.817538122688944]
Reinforced Meta-thinking Agents (ReMA) を導入し,Large Language Models (LLMs) の推論からメタ思考行動を求める。
ReMAは、推論プロセスを2つの階層的なエージェントに分解する。戦略上の監視と計画を生成するハイレベルなメタ思考エージェントと、詳細な実行のための低レベルな推論エージェントである。
単ターン実験による実験結果から、ReMAは複雑な推論タスクにおいて単エージェントRLベースラインよりも優れることが示された。
論文 参考訳(メタデータ) (2025-03-12T16:05:31Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - SAC-GLAM: Improving Online RL for LLM agents with Soft Actor-Critic and Hindsight Relabeling [29.29604779151457]
本稿では,LSM剤に適応するソフトアクター・クライトと後方視の適応について検討する。
本手法は,従来のマルチゴールRL環境において,オンライン学習を行う自動LLMエージェントへの道筋を示す。
論文 参考訳(メタデータ) (2024-10-16T11:59:27Z) - MetaCURE: Meta Reinforcement Learning with Empowerment-Driven
Exploration [52.48362697163477]
実験により,我々のメタRL法はスパース・リワードタスクにおける最先端のベースラインを著しく上回ることがわかった。
本稿では,活用政策学習とは切り離されたメタRLの探索政策学習問題をモデル化する。
我々は、コンテキスト対応の探索と利用ポリシーを効率よく学習する、新しい非政治メタRLフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-15T06:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。