論文の概要: StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
- arxiv url: http://arxiv.org/abs/2605.06642v1
- Date: Thu, 07 May 2026 17:51:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.065013
- Title: StraTA: Incentivizing Agentic Reinforcement Learning with Strategic Trajectory Abstraction
- Title(参考訳): StraTA:Strategic Trajectory Abstractionを用いたエージェント強化学習のインセンティブ化
- Authors: Xiangyuan Xue, Yifan Zhou, Zidong Wang, Shengji Tang, Philip Torr, Wanli Ouyang, Lei Bai, Zhenfei Yin,
- Abstract要約: StraTAは、エージェント強化学習に明確な軌道レベルの戦略を導入するフレームワークである。
ALFWorld、WebShop、SciWorldの実験では、StraTAはサンプル効率と最終的なパフォーマンスの両方を一貫して改善している。
- 参考スコア(独自算出の注目度): 76.50439715778869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as interactive agents, but optimizing them for long-horizon decision making remains difficult because current methods are largely purely reactive, which weakens both exploration and credit assignment over extended trajectories. In this work, we present Strategic Trajectory Abstraction (StraTA), a simple framework that introduces an explicit trajectory-level strategy into agentic reinforcement learning (RL). StraTA samples a compact strategy from the initial task state, conditions subsequent actions on that strategy, and trains strategy generation and action execution jointly with a hierarchical GRPO-style rollout design, further enhanced by diverse strategy rollout and critical self-judgment. Experiments on ALFWorld, WebShop, and SciWorld show that StraTA consistently improves both sample efficiency and final performance over strong baselines. StraTA reaches success rates of 93.1% on ALFWorld and 84.2% on WebShop. On SciWorld, StraTA attains a 63.5% overall score, outperforming frontier closed-source models.
- Abstract(参考訳): 大規模言語モデル (LLM) は対話型エージェントとしての利用が増えているが、現在の手法はほとんど純粋に反応性があり、拡張軌道上の探索とクレジット割り当ての両方を弱めるため、長い水平決定のためにそれらを最適化することは依然として困難である。
本稿では,エージェント強化学習(RL)に明確な軌道レベルの戦略を導入するシンプルなフレームワークであるStraTA(Strategic Trajectory Abstraction)を提案する。
StraTAは、初期タスク状態からコンパクトな戦略をサンプリングし、その戦略のその後の状況を確認し、階層的なGRPOスタイルのロールアウト設計と共同で戦略生成と行動実行を訓練し、多様な戦略ロールアウトと批判的な自己判断によってさらに強化した。
ALFWorld、WebShop、SciWorldの実験では、StraTAは、強いベースラインよりもサンプリング効率と最終的なパフォーマンスの両方を一貫して改善している。
StraTA は ALFWorld で93.1%、WebShop で84.2% の成功を収めた。
SciWorldでは、Stratetaが63.5%のスコアを獲得し、フロンティアクローズソースモデルを上回っている。
関連論文リスト
- Expanding LLM Agent Boundaries with Strategy-Guided Exploration [51.98616048282804]
強化学習(RL)は、コンピュータ使用、ツール呼び出し、コーディングなどのタスクのエージェントとして、大規模言語モデル(LLM)の訓練後において顕著な成功を収めた。
我々は,低レベルな行動から高レベルな言語戦略に移行するための戦略ガイド探索(SGE)を提案する。
論文 参考訳(メタデータ) (2026-03-02T16:28:39Z) - TopoCurate:Modeling Interaction Topology for Tool-Use Agent Training [53.93696896939915]
訓練用ツール使用エージェントは一般的に、パスレート選択されたタスクに対して、軌道変更の成功と強化学習(RL)に依存している。
TopoCurateは,同一タスクから多段階的なロールアウトを統一的な意味的商トポロジに投影する対話型フレームワークである。
TopoCurateは最先端のベースラインに対して4.2%(SFT)と6.9%(RL)という一貫したゲインを達成している。
論文 参考訳(メタデータ) (2026-03-02T10:38:54Z) - Reflecting with Two Voices: A Co-Adaptive Dual-Strategy Framework for LLM-Based Agent Decision Making [24.534365665776672]
大規模言語モデル(LLM)エージェントは、しばしば外部のデモンストレーションや検索拡張計画に依存している。
本研究では,DuSARを提案する。DuSARは1つの凍結LDMが共適応推論を行うことを可能にするデモフリーフレームワークである。
ALFWorldとMind2Webでは、DuSARはオープンソースのLLMで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-09T08:44:59Z) - SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph [15.303565124424635]
大きな言語モデル(LLM)は、言語エージェントがシングルターンタスクでエキサイティングな機能を示す。
複雑な多段階・長期のタスクへの応用は依然として困難である。
本稿では,結果報酬のみから派生した,よりきめ細かい有利な代入を提供するフレームワークであるSALTを提案する。
論文 参考訳(メタデータ) (2025-10-22T20:50:24Z) - Genesis: Evolving Attack Strategies for LLM Web Agent Red-Teaming [45.95972813586392]
既存のレッドチーム方式は、主にオフラインでトレーニングされた手作業による攻撃戦略や静的モデルに依存している。
我々は,アタッカー,スコラー,ストラテジストの3つのモジュールからなる新しいエージェントフレームワークであるGenesisを提案する。
我々のフレームワークは、新しい戦略を発見し、既存の攻撃ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-10-21T05:49:37Z) - AutoDAN-Reasoning: Enhancing Strategies Exploration based Jailbreak Attacks with Test-Time Scaling [54.47844626555395]
AutoDAN-Turboは生涯学習エージェントを使用して、攻撃戦略の豊富なライブラリをゼロから構築する。
非常に効果的ではあるが、そのテスト時間生成プロセスは戦略をサンプリングし、対応する1つの攻撃プロンプトを生成する。
本稿では,テスト時間スケーリングによるAutoDAN-Turboの攻撃性能の向上を提案する。
論文 参考訳(メタデータ) (2025-10-06T21:16:09Z) - Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - TGRPO :Fine-tuning Vision-Language-Action Model via Trajectory-wise Group Relative Policy Optimization [12.061547251822326]
Trajectory-based Group Relative Policy Optimization (TGRPO)は、Visual-Language-Action(VLA)モデルのためのオンラインRLベースのトレーニングフレームワークである。
TGRPOの平均成功率は80.7%で、これはスーパーバイザードファインチューニング(SFT)よりも4.2%高く、他の代表的RLベースのポストトレーニング手法よりも優れていた。
論文 参考訳(メタデータ) (2025-06-10T04:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。