論文の概要: Improving Search Agent with One Line of Code
- arxiv url: http://arxiv.org/abs/2603.10069v1
- Date: Tue, 10 Mar 2026 04:07:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.6111
- Title: Improving Search Agent with One Line of Code
- Title(参考訳): 1行のコードによる検索エージェントの改善
- Authors: Jian Li, Dongsheng Chen, Zhenhua Xu, Yizhang Jin, Jiafu Wu, Chengjie Wang, Xiaotong Yuan, Yabiao Wang,
- Abstract要約: ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
- 参考スコア(独自算出の注目度): 68.58667107354253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tool-based Agentic Reinforcement Learning (TARL) has emerged as a promising paradigm for training search agents to interact with external tools for a multi-turn information-seeking process autonomously. However, we identify a critical training instability that leads to catastrophic model collapse: Importance Sampling Distribution Drift(ISDD). In Group Relative Policy Optimization(GRPO), a widely adopted TARL algorithm, ISDD manifests as a precipitous decline in the importance sampling ratios, which nullifies gradient updates and triggers irreversible training failure. To address this, we propose \textbf{S}earch \textbf{A}gent \textbf{P}olicy \textbf{O}ptimization (\textbf{SAPO}), which stabilizes training via a conditional token-level KL constraint. Unlike hard clipping, which ignores distributional divergence, SAPO selectively penalizes the KL divergence between the current and old policies. Crucially, this penalty is applied only to positive tokens with low probabilities where the policy has shifted excessively, thereby preventing distribution drift while preserving gradient flow. Remarkably, SAPO requires only one-line code modification to standard GRPO, ensuring immediate deployability. Extensive experiments across seven QA benchmarks demonstrate that SAPO achieves \textbf{+10.6\% absolute improvement} (+31.5\% relative) over Search-R1, yielding consistent gains across varying model scales (1.5B, 14B) and families (Qwen, LLaMA).
- Abstract(参考訳): ツールベースのエージェント強化学習(TARL)は、検索エージェントが外部ツールと対話し、マルチターン情報検索プロセスを自律的に行うためのトレーニングパラダイムとして登場した。
しかし、破滅的なモデル崩壊につながる重要なトレーニング不安定性は、Importance Smpling Distribution Drift (ISDD)である。
広く採用されているTARLアルゴリズムであるグループ相対政策最適化(GRPO)では、ISDDは重要サンプリング率の急激な低下として現れ、勾配更新を無効化し、不可逆的なトレーニング失敗を引き起こす。
これを解決するために、条件付きトークンレベルKL制約によるトレーニングを安定化する、 \textbf{S}earch \textbf{A}gent \textbf{P}olicy \textbf{O}ptimization (\textbf{SAPO})を提案する。
分布のばらつきを無視するハードクリッピングとは異なり、SAPOは現在のポリシーと古いポリシーの間のKLのばらつきを選択的に罰する。
このペナルティは、政策が過度にシフトした確率の低い正のトークンにのみ適用されるため、勾配流を保ちながら分布のドリフトを防止できる。
注目すべきは、SAPOは標準のGRPOに1行のコード修正しか必要とせず、即時にデプロイ可能であることだ。
7つのQAベンチマークによる大規模な実験により、SAPOはサーチ-R1よりも「textbf{+10.6\%絶対改善」(+31.5\%)を達成し、様々なモデルスケール(1.5B, 14B)とファミリー(Qwen, LLaMA)で一貫した利得が得られることが示された。
関連論文リスト
- Stabilizing Reinforcement Learning for Diffusion Language Models [27.22260417844743]
グループ相対政策最適化(GRPO)は、自己回帰(AR)言語モデルの訓練後において非常に効果的である。
しかし、拡散大言語モデル(dLLM)への直接的な適用は、しばしば報酬の崩壊を引き起こす。
これらの効果は、政策ドリフトを駆動する自己強化不安定ループを形成し、さらに比の分散を増加させることを示す。
我々はDLLMに適したGRPOの再構成であるStableDRLを提案する。
論文 参考訳(メタデータ) (2026-03-06T08:55:37Z) - BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Stable Asynchrony: Variance-Controlled Off-Policy RL for LLMs [19.079556051442168]
強化学習(Reinforcement Learning, RL)は、推論タスクにおける大規模言語モデルの改善に広く用いられている。
しかし、REINFORCE や GRPO のような広く採用されている批判のない政策段階的手法では、高い非同期性によって政策段階的推定器は明らかにノイズを生じさせる。
本稿では,REINFORCE/GRPOスタイルのアルゴリズムの安定化手法を提案する。
論文 参考訳(メタデータ) (2026-02-19T18:40:51Z) - VESPO: Variational Sequence-Level Soft Policy Optimization for Stable Off-Policy LLM Training [18.849117699859622]
訓練安定性は、大規模言語モデルの強化学習における中心的な課題である。
変動周波数レベルのソフトポリシー最適化(VESPO)を提案する。
数学的推論ベンチマークの実験では、VESPOは安定なトレーニングを64倍の安定度と完全な非同期実行で維持している。
論文 参考訳(メタデータ) (2026-02-11T09:48:08Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - Soft Adaptive Policy Optimization [67.61886077470528]
強化学習は、大規模言語モデルの推論能力を高める上で、ますます重要な役割を担っている。
GSPOやGRPOのような既存のグループベースのポリシー最適化手法は、ハードクリッピングによってこの問題を軽減する。
ハードクリッピングをスムーズな温度制御ゲートに置き換えるソフト適応ポリシー最適化(SAPO)を提案する。
論文 参考訳(メタデータ) (2025-11-25T14:25:19Z) - Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。
LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。
従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文 参考訳(メタデータ) (2025-10-06T16:34:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。