論文の概要: Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning
- arxiv url: http://arxiv.org/abs/2605.22511v2
- Date: Tue, 26 May 2026 13:56:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:40.966688
- Title: Search-E1: Self-Distillation Drives Self-Evolution in Search-Augmented Reasoning
- Title(参考訳): Search-E1: 自己蒸留は、検索強化推論における自己進化を促進する
- Authors: Zihan Liang, Yufei Ma, Ben Chen, Zhipeng Qian, Xuxin Zhang, Huangyu Dai, Lingtao Mao,
- Abstract要約: ポストトレーニングは、言語モデルを有能な検索強化推論エージェントに変えるための主要なレシピとなっている。
そこで本稿では,バニラGRPOのみによる自己進化法である検索-E1を提案する。
Search-E1はQwen2.5-3Bで平均0.440EMに達し、両方のスケールですべてのオープンソースベースラインを超えた。
- 参考スコア(独自算出の注目度): 5.605622654870907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training has become the dominant recipe for turning a language model into a competent search-augmented reasoning agent. A line of recent work pushes its performance further by adding elaborate machinery on top of this standard pipeline. These augmentations import external supervision from stronger external systems, attach auxiliary modules such as process reward models or retrospective critics, restructure the rollout itself with tree search or multi-stage curricula, or shape the reward with hand-crafted bonuses and penalties. Each addition delivers a measurable gain, but each also inflates the training pipeline and ties the recipe to resources or designs that may not always be available. We take a step back and ask whether any of this machinery is actually necessary, and propose Search-E1, a self-evolution method that lets a search-augmented agent improve through only vanilla GRPO interleaved with on-policy self-distillation (OPSD). After each GRPO round, the policy rolls out on its own training questions. A token-level forward KL objective then aligns the policy's inference-time distribution to its own distribution under a privileged context that exposes a more efficient sibling trajectory. Despite this simplicity, the procedure naturally provides dense per-step supervision. On seven QA benchmarks, Search-E1 reaches 0.440 average EM with Qwen2.5-3B, surpassing all open-source baselines at both scales. Code and complete version will be made public soon.
- Abstract(参考訳): ポストトレーニングは、言語モデルを有能な検索強化推論エージェントに変えるための主要なレシピとなっている。
最近の一連の研究は、この標準パイプラインの上に精巧な機械を追加することで、そのパフォーマンスをさらに押し上げている。
これらの拡張は、より強力な外部システムから外部の監督をインポートし、プロセス報酬モデルやレトロスペクティブ批評家などの補助モジュールを添付し、ツリー検索や多段階キュキュラでロールアウト自体を再構築したり、手作りのボーナスとペナルティで報酬を形作る。
それぞれの追加は測定可能なゲインを提供するが、それぞれがトレーニングパイプラインを膨らませ、レシピを常に利用できるとは限らないリソースや設計に結び付ける。
我々は、この機械が実際に必要かどうかを一歩後退し、検索強化されたエージェントが、政治的自己蒸留(OPSD)によってインターリーブされたバニラGRPOのみを通して改善できる自己進化法であるSearch-E1を提案する。
各GRPOラウンドの後、ポリシーは独自のトレーニング質問でロールアウトされる。
トークンレベルのフォワードKLの目的は、より効率的な兄弟軌道を公開する特権付きコンテキストの下で、ポリシーの推論時分布を独自の分布に整列する。
この単純さにもかかわらず、手順は自然にステップごとに密集した監視を提供する。
7つのQAベンチマークで、Search-E1はQwen2.5-3Bで平均0.440のEMに達し、両方のスケールですべてのオープンソースベースラインを超えた。
コードと完全なバージョンはまもなく公開される予定だ。
関連論文リスト
- SD-Search: On-Policy Hindsight Self-Distillation for Search-Augmented Reasoning [8.584560411480647]
結果回帰強化学習では、ロールアウトにおけるすべての決定は同じ軌道レベルの報酬を共有し、ステップ固有のクレジットなしで個々のクエリを残します。
最近のプロセススーパービジョンアプローチでは、ポリシー外部からステップレベルのシグナルを描画することで、このギャップに対処している。
SD-Searchは,政策自体の段階的な監督を,政治上の後見的な自己蒸留を通じて引き起こす。
論文 参考訳(メタデータ) (2026-05-18T12:18:47Z) - MM-Doc-R1: Training Agents for Long Document Visual Question Answering through Multi-turn Reinforcement Learning [74.07254720088926]
長文の視覚的質問応答に対処するために,エージェント型視覚認識ワークフローを利用する新しいフレームワークMM-Doc-R1を紹介する。
GRPOのような既存のマルチターン強化学習(RL)アルゴリズムにおけるベースライン推定バイアスに対処する、類似性に基づくポリシー最適化(SPO)を提案する。
MMLongbench-Docベンチマークの実験では、MM-Doc-R1が以前のベースラインを10.4%上回る結果となった。
論文 参考訳(メタデータ) (2026-04-15T07:39:08Z) - Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [50.61441331643804]
強化学習(Reinforcement Learning、RLVR)は、広く適用可能で強力であるが、訓練中に緩やかな監督しか提供しない二進的な報酬に依存している。
蒸留は、一般的に外部の教師や高品質なデモンストレーションを使って得られる、密集したトークンレベルの監督を提供する。
自己蒸留ゼロ(SD-Zero)は,RLよりもかなり訓練効率が高く,外部教師や高品質な実演を必要としない手法である。
論文 参考訳(メタデータ) (2026-04-13T19:46:55Z) - Distribution-Centric Policy Optimization Dominates Exploration-Exploitation Trade-off [34.80019950191864]
我々は、強化学習のためのtextbfdistribution中心の視点を導入する。
本稿では,分布レベルの正規化としてエントロピー規制を再構成する分散中心政策最適化(DCPO)を提案する。
全体として、DCPOはサンプルレベルの原則を分散レベルの原則に置き換え、理論的に基礎とフレキシブルなフレームワークを提供し、EEのトレードオフを強化します。
論文 参考訳(メタデータ) (2026-01-19T05:20:46Z) - TreePS-RAG: Tree-based Process Supervision for Reinforcement Learning in Agentic RAG [71.06073770344732]
エージェント検索強化生成(RAG)は、推論と情報検索の多段階的な相互作用として質問応答を定式化する。
エージェントRAGのためのオンラインツリーベースRLフレームワークであるTreePS-RAGについて述べる。
論文 参考訳(メタデータ) (2026-01-11T14:07:30Z) - SEEA-R1: Tree-Structured Reinforcement Fine-Tuning for Self-Evolving Embodied Agents [58.174206358223415]
自己進化型エボダイドエージェント(SeEA-R1)は、自己進化型エボダイドエージェント用に設計された最初の強化微細調整フレームワークである。
本研究は,SEEA-R1が自律適応と報酬駆動型自己進化をサポートすることを示す。
論文 参考訳(メタデータ) (2025-06-26T18:00:07Z) - Rewarding the Unlikely: Lifting GRPO Beyond Distribution Sharpening [36.81125165911328]
強化学習は、言語モデルの推論能力を改善する主要な要因として現れています。
本稿では,現在の強化学習アルゴリズムが,すでに解いている問題に関するベースモデルの分布を単に研ぎ澄ましているだけかどうかを考察する。
差分報酬はランクバイアスを緩和し、合成定理と実定理の両方の証明設定において、多種多様な$N$でpass@N$を改善することを示す。
論文 参考訳(メタデータ) (2025-06-03T01:15:15Z) - AURORA:Automated Training Framework of Universal Process Reward Models via Ensemble Prompting and Reverse Verification [31.463529258956452]
本稿では,アンサンブルのプロンプトと逆検証を用いた統一プロセス報酬モデル(PRM)をトレーニングするための新しいフレームワークであるAURORAを提案する。
まず、さまざまなプロンプト戦略とアンサンブルメソッドを使用して、自動化されたアノテーションとプロセスの評価を行います。
フレームワークのパフォーマンスを評価するために、UniversalBenchを導入することで、既存のProcessBenchベンチマークを超えて拡張します。
論文 参考訳(メタデータ) (2025-02-17T07:41:27Z) - MALT: Improving Reasoning with Multi-Agent LLM Training [67.76186488361685]
MALT(Multi-Agent LLM Training)は、推論プロセスを生成、検証、改善ステップに分割する、新しいポストトレーニング戦略である。
MATH、GSM8K、CSQAでは、MALTは、それぞれ15.66%、7.42%、9.40%の相対的な改善で同じベースラインLLMを上回っている。
論文 参考訳(メタデータ) (2024-12-02T19:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。