Fugu-MT 論文翻訳(概要): ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

論文の概要: ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning

arxiv url: http://arxiv.org/abs/2602.21534v1
Date: Wed, 25 Feb 2026 03:43:34 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-26 18:19:16.689152
Title: ARLArena: A Unified Framework for Stable Agentic Reinforcement Learning
Title（参考訳）: ARLArena: 安定したエージェント強化学習のための統一フレームワーク
Authors: Xiaoxuan Wang, Han Zhang, Haixin Wang, Yidan Shi, Ruoyan Li, Kaiqiao Han, Chenyi Tong, Haoran Deng, Renliang Sun, Alexander Taylor, Yanqiao Zhu, Jason Cong, Yizhou Sun, Wei Wang,
Abstract要約: エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。
参考スコア（独自算出の注目度）: 75.73135757250806
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Agentic reinforcement learning (ARL) has rapidly gained attention as a promising paradigm for training agents to solve complex, multi-step interactive tasks. Despite encouraging early results, ARL remains highly unstable, often leading to training collapse. This instability limits scalability to larger environments and longer interaction horizons, and constrains systematic exploration of algorithmic design choices. In this paper, we first propose ARLArena, a stable training recipe and systematic analysis framework that examines training stability in a controlled and reproducible setting. ARLArena first constructs a clean and standardized testbed. Then, we decompose policy gradient into four core design dimensions and assess the performance and stability of each dimension. Through this fine-grained analysis, we distill a unified perspective on ARL and propose SAMPO, a stable agentic policy optimization method designed to mitigate the dominant sources of instability in ARL. Empirically, SAMPO achieves consistently stable training and strong performance across diverse agentic tasks. Overall, this study provides a unifying policy gradient perspective for ARL and offers practical guidance for building stable and reproducible LLM-based agent training pipelines.
Abstract（参考訳）: エージェント強化学習(ARL)は、複雑で多段階の対話的なタスクを解決するためのトレーニングエージェントにとって有望なパラダイムとして急速に注目を集めている。初期の成果を奨励しているにもかかわらず、ARLは非常に不安定であり、しばしばトレーニングの崩壊につながる。この不安定性はスケーラビリティをより大きな環境に制限し、相互作用の地平線を長くし、アルゴリズム設計の選択を体系的に探究することを制約する。本稿では,制御された再現可能な環境下でのトレーニング安定性を検証した,安定したトレーニングレシピと系統的分析フレームワークであるARLArenaを提案する。 ARLArenaは最初、クリーンで標準化されたテストベッドを構築する。そして,政策勾配を4つの基本設計次元に分解し,各寸法の性能と安定性を評価する。この細粒度解析を通じてARLの統一的な視点を抽出し、ARLの不安定性の原因を緩和するために設計された安定なエージェントポリシー最適化手法であるSAMPOを提案する。実証的には、SAMPOはさまざまなエージェントタスクに対して、一貫して安定したトレーニングと強力なパフォーマンスを達成する。全体として、本研究は、ARLの統一的なポリシー勾配の視点を提供し、安定かつ再現可能なLLMベースのエージェントトレーニングパイプラインを構築するための実践的なガイダンスを提供する。

関連論文リスト

Stabilizing Policy Optimization via Logits Convexity [59.242732612484474]
モデルロジットに対する教師付き微調整損失の凸性は、安定したトレーニングを可能にする上で重要な役割を担っていることを示す。そこで本研究では,ロジッツ・コンベックス最適化(Logits Convex Optimization, LCO)を提案する。
論文参考訳（メタデータ） (2026-03-01T07:40:12Z)
Stabilizing Reinforcement Learning with LLMs: Formulation and Practices [61.361819972410046]
本稿では,REINFORCEなどの政策勾配法において,真のシーケンスレベルの報酬を代用トークンレベルの目的によって最適化できる理由と条件を示す。この洞察は、RLトレーニングの安定化において、広く採用されているいくつかのテクニックの重要な役割について、原則化された説明を提供する。
論文参考訳（メタデータ） (2025-12-01T07:45:39Z)
Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文参考訳（メタデータ） (2025-07-26T07:53:11Z)
RAGEN: Understanding Self-Evolution in LLM Agents via Multi-Turn Reinforcement Learning [125.96848846966087]
対話型エージェントとしての大規模言語モデル(LLM)のトレーニングには,ユニークな課題がある。強化学習は静的タスクの進行を可能にする一方で、マルチターンエージェントRLトレーニングは未探索のままである。本稿では、軌道レベルのエージェントRLのための一般的なフレームワークであるStarPOを提案し、LLMエージェントのトレーニングと評価のためのモジュールシステムであるRAGENを紹介する。
論文参考訳（メタデータ） (2025-04-24T17:57:08Z)
SALSA-RL: Stability Analysis in the Latent Space of Actions for Reinforcement Learning [2.7075926292355286]
本研究では,SALSA-RL(Stability Analysis in the Latent Space of Actions)を提案する。 SALSA-RLは、様々なベンチマーク環境における性能を損なうことなく、事前訓練されたRLエージェントからの動作の局所的安定性を評価するために、非侵襲的な方法で展開可能であることを実証する。
論文参考訳（メタデータ） (2025-02-21T15:09:39Z)
PEAR: Primitive Enabled Adaptive Relabeling for Boosting Hierarchical Reinforcement Learning [25.84621883831624]
階層的強化学習(HRL)は、時間的抽象化と探索の増大により、複雑な長い地平線タスクを解く可能性がある。プリミティブ・アダプティブ・アダプティブ・レバーベリング(PEAR)を提案する。まず,いくつかの専門家による実験を適応的に実施し,効率的なサブゴール管理を実現する。次に、強化学習(RL)と模倣学習(IL)を併用してHRLエージェントを共同最適化する。
論文参考訳（メタデータ） (2023-06-10T09:41:30Z)
Robust Reinforcement Learning as a Stackelberg Game via Adaptively-Regularized Adversarial Training [43.97565851415018]
ロバスト強化学習(RL)は、モデルエラーや敵攻撃によるパフォーマンス向上に重点を置いている。既存の文献の多くは、解の概念としてナッシュ平衡を伴うゼロサム同時ゲームとして RARL をモデル化している。 RRL-Stackと呼ばれる一般のStackelbergゲームモデルである、ロバストなRLの階層的な新しい定式化を導入する。
論文参考訳（メタデータ） (2022-02-19T03:44:05Z)
Combining Pessimism with Optimism for Robust and Efficient Model-Based Deep Reinforcement Learning [56.17667147101263]
実世界のタスクでは、強化学習エージェントはトレーニング中に存在しない状況に遭遇する。信頼性を確保するため、RLエージェントは最悪の状況に対して堅牢性を示す必要がある。本稿では,Robust Hallucinated Upper-Confidence RL (RH-UCRL)アルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-18T16:50:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。