論文の概要: ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.21534v1
- Date: Wed, 25 Feb 2026 03:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.689152
- Title: ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
- Title(参考訳): ARLArena: 安定したエージェント強化学習のための統一フレームワーク
- Authors: Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang,
- Abstract要約: エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。
初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。
本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。
- 参考スコア(独自算出の注目度): 75.73135757250806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic reinforcement learning (ARL) has rapidly gained attention as a promising paradigm for training agents to solve complex, multi-step interactive tasks. Despite encouraging early results, ARL remains highly unstable, often leading to training collapse. This instability limits scalability to larger environments and longer interaction horizons, and constrains systematic exploration of algorithmic design choices. In this paper, we first propose ARLArena, a stable training recipe and systematic analysis framework that examines training stability in a controlled and reproducible setting. ARLArena first constructs a clean and standardized testbed. Then, we decompose policy gradient into four core design dimensions and assess the performance and stability of each dimension. Through this fine-grained analysis, we distill a unified perspective on ARL and propose SAMPO, a stable agentic policy optimization method designed to mitigate the dominant sources of instability in ARL. Empirically, SAMPO achieves consistently stable training and strong performance across diverse agentic tasks. Overall, this study provides a unifying policy gradient perspective for ARL and offers practical guidance for building stable and reproducible LLM-based agent training pipelines.
- Abstract(参考訳): エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。
初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。
この不安定性はスケーラビリティをより大きな環境に制限し、相互作用の地平線を長くし、アルゴリズム設計の選択を体系的に探究することを制約する。
本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。
ARLArenaは最初、クリーンで標準化されたテストベッドを構築する。
そして,政策勾配を4つの基本設計次元に分解し,各寸法の性能と安定性を評価する。
この細粒度解析を通じてARLの統一的な視点を抽出し、ARLの不安定性の原因を緩和するために設計された安定なエージェントポリシー最適化手法であるSAMPOを提案する。
実証的には、SAMPOはさまざまなエージェントタスクに対して、一貫して安定したトレーニングと強力なパフォーマンスを達成する。
全体として、本研究は、ARLの統一的なポリシー勾配の視点を提供し、安定かつ再現可能なLLMベースのエージェントトレーニングパイプラインを構築するための実践的なガイダンスを提供する。
関連論文リスト
- Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。
この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文 参考訳(メタデータ) (2025-12-01T07:45:39Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。
強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。
本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文 参考訳(メタデータ) (2025-04-24T17:57:08Z) - SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning [2.7075926292355286]
本研究では,SALSA-RL(Stability Analysis in the Latent Space of Actions)を提案する。
SALSA-RLは、様々なベンチマーク環境における性能を損なうことなく、事前訓練されたRLエージェントからの動作の局所的安定性を評価するために、非侵襲的な方法で展開可能であることを実証する。
論文 参考訳(メタデータ) (2025-02-21T15:09:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。