論文の概要: SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph
- arxiv url: http://arxiv.org/abs/2510.20022v1
- Date: Wed, 22 Oct 2025 20:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.835087
- Title: SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph
- Title(参考訳): SALT:軌道グラフによる長距離エージェントのステップレベルアドバンテージアサインメント
- Authors: Jiazheng Li, Yawei Wang, David Yan, Yijun Tian, Zhichao Xu, Huan Song, Panpan Xu, Lin Lee Cheong,
- Abstract要約: 大きな言語モデル(LLM)は、言語エージェントがシングルターンタスクでエキサイティングな機能を示す。
複雑な多段階・長期のタスクへの応用は依然として困難である。
本稿では,結果報酬のみから派生した,よりきめ細かい有利な代入を提供するフレームワークであるSALTを提案する。
- 参考スコア(独自算出の注目度): 15.303565124424635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities, enabling language agents to excel at single-turn tasks. However, their application to complex, multi-step, and long-horizon tasks remains challenging. While reinforcement learning (RL) offers a promising avenue for addressing these challenges, mainstream approaches typically rely solely on sparse, outcome-based rewards, a limitation that becomes especially problematic for group-based RL algorithms lacking critic models, such as Group Relative Policy Optimization (GRPO). In such methods, uniformly rewarding or penalizing all actions within a trajectory can lead to training instability and suboptimal policies, because beneficial and detrimental actions are often entangled across multi-step interactions. To address this challenge, we propose SALT, a novel and lightweight framework that provides a finer-grained advantage assignment, derived solely from outcome rewards. We achieve this by constructing a graph from trajectories of the same prompt, which allows us to quantify the quality of each step and assign advantages accordingly. Crucially, SALT is designed as a plug-and-play module that seamlessly integrates with existing group-based RL algorithms, requiring no modifications to the rollout procedure and introducing negligible computational overhead. Extensive experiments on the WebShop, ALFWorld, and AppWorld benchmarks with various model sizes demonstrate that SALT consistently improves performance. We also conduct a thorough analysis to validate the design choices behind SALT and offer actionable insights.
- Abstract(参考訳): 大きな言語モデル(LLM)は、言語エージェントがシングルターンタスクでエキサイティングな機能を示す。
しかし、複雑な多段階的・長期的タスクへの応用は依然として困難である。
強化学習(RL)はこれらの課題に対処するための有望な道を提供するが、主流のアプローチは一般的に、粗末で結果に基づく報酬にのみ依存しており、グループ相対ポリシー最適化(GRPO)のような批判モデルに欠けるグループベースのRLアルゴリズムでは特に問題となる。
このような方法では、全ての行動に一様に報酬を与えるか、罰を与えるかは、多段階の相互作用にまたがって利益と有害な行動が絡み合うため、トレーニングの不安定性と準最適政策につながる可能性がある。
この課題に対処するために,結果の報奨のみから派生した,よりきめ細かい有利な代入を提供する,斬新で軽量なフレームワーク SALT を提案する。
これを実現するために、同じプロンプトの軌跡からグラフを構築し、各ステップの品質を定量化し、それに応じて利点を割り当てる。
SALTは、既存のグループベースのRLアルゴリズムとシームレスに統合するプラグイン・アンド・プレイモジュールとして設計されており、ロールアウト手順の変更を必要とせず、計算オーバーヘッドが無視できる。
さまざまなモデルサイズのWebShop、ALFWorld、AppWorldベンチマークに関する大規模な実験は、SALTが一貫してパフォーマンスを改善していることを示している。
また、SALTの背後にある設計選択を検証するための徹底的な分析を行い、実用的な洞察を提供しています。
関連論文リスト
- Agentic Reinforcement Learning with Implicit Step Rewards [92.26560379363492]
大規模言語モデル (LLMs) は強化学習 (agentic RL) を用いた自律的エージェントとして発展している。
我々は,標準RLアルゴリズムとシームレスに統合された一般的なクレジット割り当て戦略であるエージェントRL(iStar)について,暗黙的なステップ報酬を導入する。
我々は,WebShopとVisualSokobanを含む3つのエージェントベンチマークと,SOTOPIAにおける検証不可能な報酬とのオープンなソーシャルインタラクションについて評価した。
論文 参考訳(メタデータ) (2025-09-23T16:15:42Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Reinforcing Multi-Turn Reasoning in LLM Agents via Turn-Level Reward Design [35.544075583073685]
マルチターンRLアルゴリズムとエージェント応用のためのテキストターンレベルの報酬設計に関する最初の体系的研究について述べる。
我々は、多ターン推論強化検索エージェントのケーススタディを行い、検証可能とLCM-as-judgeの2種類のターンレベルの報酬を慎重に設計する。
マルチターン探索タスクの実験により、適切に設計されたターンレベルの報酬を組み込むことで、RLアルゴリズムは軌道レベルの報酬でベースライン法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2025-05-17T04:09:46Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。