論文の概要: DSPO: Stable and Efficient Policy Optimization for Agentic Search and Reasoning
- arxiv url: http://arxiv.org/abs/2510.09255v1
- Date: Fri, 10 Oct 2025 10:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.71519
- Title: DSPO: Stable and Efficient Policy Optimization for Agentic Search and Reasoning
- Title(参考訳): DSPO:エージェント検索と推論のための安定かつ効率的なポリシー最適化
- Authors: Chenyang Gu, Yewen Pu, Bruce Yang, Xiaofan Li, Huan Gao,
- Abstract要約: textbfDynamic-filter textbfSequence-level textbfPolicy textbfOptimization (DSPO)を導入する。
DSPOは、シーケンスレベルの最適化と動的サンプルフィルタリングによる堅牢なエージェントトレーニングのために設計された改良されたRLアルゴリズムである。
我々は、RLを通して純粋にモデルをトレーニングし、マルチターン探索と推論をインターリーブし、教師付きデモデータの必要性を回避した。
- 参考スコア(独自算出の注目度): 10.663331399616956
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Enhancing LLMs with the ability to actively search external knowledge is crucial for complex and real-world tasks. Current approaches either rely on prompting to elicit the model's innate agent capabilities, or suffer from performance ceilings and collapse when applying RL to complex interactive tasks, leaving their true agentic potential untapped. To address this, we introduce \textbf{D}ynamic-filter \textbf{S}equence-level \textbf{P}olicy \textbf{O}ptimization (DSPO), an improved RL algorithm designed for robust agent training through sequence-level optimization and dynamic sample filtering. We train our model purely through RL to interleave multi-turn search and reasoning, obviating the need for supervised demonstration data. Across multiple QA benchmarks, our DSPO-trained 7B model improves over a comparable previous work by \textbf{34.1\%}, and even outperforms the 14B model from previous work in complex multihop QA such as HotpotQA by nearly \textbf{9\% relative}, maintaining exceptional training stability.
- Abstract(参考訳): LLMを外部知識を積極的に探索する能力で強化することは、複雑で現実的なタスクに不可欠である。
現在のアプローチでは、モデル固有のエージェント能力を引き出すよう促すか、あるいは複雑な対話的なタスクにRLを適用する際にパフォーマンスの天井と崩壊に悩まされ、真のエージェントの可能性は失われている。
これを解決するために,シーケンスレベルの最適化と動的サンプルフィルタリングによる堅牢なエージェントトレーニングのために設計された改良されたRLアルゴリズムである,dbf{D}ynamic-filter \textbf{S}equence-level \textbf{P}olicy \textbf{O}ptimization (DSPO)を導入する。
我々は、RLを通して純粋にモデルをトレーニングし、マルチターン探索と推論をインターリーブし、教師付きデモデータの必要性を回避した。
複数のQAベンチマークにおいて、DSPOでトレーニングされた7Bモデルは、それと同等の先行研究であるtextbf{34.1\%} よりも改善され、また、HotpotQAのような複雑なマルチホップQAにおける以前の研究よりも14Bモデルよりも優れており、例外的なトレーニング安定性を維持している。
関連論文リスト
- Agentic Reinforced Policy Optimization [66.96989268893932]
検証可能な報酬付き大規模強化学習(RLVR)は,大規模言語モデル(LLM)を単一ターン推論タスクに活用する効果を実証している。
現在のRLアルゴリズムは、モデル固有のロングホライゾン推論能力と、マルチターンツールインタラクションにおけるその習熟性のバランスが不十分である。
エージェント強化ポリシー最適化(ARPO: Agentic Reinforced Policy Optimization)は,マルチターンLDMエージェントを学習するためのエージェントRLアルゴリズムである。
論文 参考訳(メタデータ) (2025-07-26T07:53:11Z) - SoftPipe: A Soft-Guided Reinforcement Learning Framework for Automated Data Preparation [10.764970149373845]
我々は,厳格な制約をソフトガイダンスのパラダイムに置き換える,新しいRLフレームワークであるSoftPipeを紹介した。
我々は、SoftPipeがパイプラインの品質を最大13.9%改善し、2.8$times$既存の方法よりも高速な収束を実現することを実証した。
論文 参考訳(メタデータ) (2025-07-18T07:43:22Z) - Scalable In-Context Q-Learning [68.9917436397079]
textbfScalable textbfIn-textbfContext textbfQ-textbfLearning (textbfSICQL)を提案する。
textbfSICQLは動的プログラミングとワールドモデリングを利用して、ICRLを効率的な報酬とタスクの一般化に向けて制御する。
論文 参考訳(メタデータ) (2025-06-02T04:21:56Z) - MaskSearch: A Universal Pre-Training Framework to Enhance Agentic Search Capability [106.35604230971396]
最近のエージェント技術の進歩により、大規模言語モデル(LLM)は、検索、計画、推論のためのツールを自律的に活用することができる。
エージェントの普遍的な検索能力を高めるために,新しい事前学習フレームワークMaskSearchを提案する。
事前学習の段階では、検索ツールを用いてマスク付きスパンを埋めるRetrieval Augmented Mask Prediction (RAMP)タスクを導入する。
その後、モデルは下流のタスクでトレーニングされ、さらなる改善が達成されます。
論文 参考訳(メタデータ) (2025-05-26T17:58:50Z) - Agent Q: Advanced Reasoning and Learning for Autonomous AI Agents [44.34340798542]
大きな言語モデル(LLM)は、複雑な推論を必要とする自然言語タスクにおいて顕著な能力を示している。
静的データセットに対する従来の教師付き事前トレーニングは、自律的なエージェント機能を実現するには不十分である。
本稿では,モンテカルロ木探索(MCTS)を自己批判機構と組み合わせ,エージェント間相互作用を反復的に微調整するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T20:52:13Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。