論文の概要: Plan Before Search: Search Agents Need Plan
- arxiv url: http://arxiv.org/abs/2605.28354v1
- Date: Wed, 27 May 2026 11:54:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.021179
- Title: Plan Before Search: Search Agents Need Plan
- Title(参考訳): 検索の前に計画: 検索エージェントには計画が必要だ
- Authors: Zhipeng Qian, Zihan Liang, Yufei Ma, Ben Chen, Huangyu Dai, Jiayi Ji, Chenyi Lei, Wenwu Ou, Xiaoshuai Sun, Qibin Hou,
- Abstract要約: サブスキル間の依存構造と蒸留が能力獲得への唯一の道ではない可能性について検討する。
本研究では,任意のターゲットモデルにおいてPlanを活性化するフィルタトラジェクトリを小型のシードモデルで生成する自己ブートストラッピングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 66.42962362539934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training large language models as retrieval-augmented reasoning agents typically combines reinforcement learning with an SFT cold start distilled from a stronger model. However, this paradigm overlooks two fundamental factors: the dependency structure among sub-skills, and the possibility that distillation is not the only route to capability acquisition. We study this through Plan, a structured agentic behavior for multi-hop retrieval that decomposes a question into ordered sub-questions before any retrieval is performed, so that each search step can be anchored to a pre-designed sub-question instead of drifting under the influence of partially relevant documents retrieved earlier. However, across three model families spanning 3B to 14B parameters, we find that an identical reward signal induces qualitatively different RL failure modes. This phenomenon indicates that successful training hinges not only on reward design but also on model-specific feasibility conditions: sufficient initial entropy, training stability, and prerequisite sub-skills. Motivated by this, we propose a self-bootstrapping paradigm in which a small-scale seed model generates filtered trajectories that activate Plan in any target model, eliminating the need for distillation from an external stronger model. Our pipeline activates Plan across every tested model and consistently outperforms competitive baselines on multi-hop QA benchmarks.
- Abstract(参考訳): 検索強化推論エージェントとしての大規模言語モデルの訓練は、強化学習とより強いモデルから蒸留されたSFTコールドスタートを組み合わせるのが一般的である。
しかし、このパラダイムは、サブスキル間の依存性構造と、蒸留が能力獲得への唯一の経路ではない可能性の2つの基本的な要因を無視する。
提案手法は,検索前に質問を順序付きサブクエストに分解するマルチホップ検索のための構造化されたエージェント動作であるPlanを用いて検討する。
しかし、3Bから14Bパラメータにまたがる3つのモデルファミリにおいて、同じ報酬信号が定性的に異なるRL障害モードを誘導することがわかった。
この現象は、十分な初期エントロピー、訓練安定性、必要なサブスキルなど、報酬設計だけでなく、モデル固有の実現可能性条件にも焦点が当てられていることを示唆している。
そこで本研究では,任意のターゲットモデルにおいてPlanを活性化するフィルタトラジェクトリを小型のシードモデルで生成し,外部の強いモデルからの蒸留を不要とする自己ブートストラップ方式を提案する。
私たちのパイプラインはテスト対象のすべてのモデルにまたがってプランを起動し、マルチホップQAベンチマークでの競争ベースラインを一貫して上回ります。
関連論文リスト
- DiffusionOPD: A Unified Perspective of On-Policy Distillation in Diffusion Models [55.01951088768769]
DiffusionOPDはオンライン政策蒸留(OPD)に基づく拡散モデルのための新しいマルチタスクトレーニングパラダイムである
本研究では,DiffusionOPDがトレーニング効率と最終性能において,マルチリワードRLとカスケードRLのベースラインを一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2026-05-14T16:49:09Z) - On Predicting the Post-training Potential of Pre-trained LLMs [60.07459271263409]
本稿では,ポストトレーニング前のベースモデルの性能予測という,ポストトレーニング後の潜在能力を予測するための新しいタスクを紹介する。
本稿では,応答判別を活用することで,ベースモデルの生成ギャップを回避できる統一フレームワークであるRuDEを提案する。
実験では、トレーニング後のパフォーマンスと90%以上の相関を示す。
論文 参考訳(メタデータ) (2026-05-12T11:33:49Z) - Answer First, Reason Later: Aligning Search Relevance via Mode-Balanced Reinforcement Learning [7.006180736433431]
低レイテンシと高パフォーマンスを実現する検索関連モデルを構築することは、検索業界において長年の課題である。
我々は,新しいtextbfAnswer-First, Reason Later(AFRL)パラダイムを提案する。
このパラダイムでは、モデルが第1のトークンで決定的な関連性スコアを出力し、続いて構造化された論理的説明を行う必要がある。
論文 参考訳(メタデータ) (2026-02-10T17:28:12Z) - Reasoning Palette: Modulating Reasoning via Latent Contextualization for Controllable Exploration for (V)LMs [49.66344956133349]
推論能力は、大規模な(ビジョン)言語モデルのための推論時間性能と強化学習(RL)トレーニングの両方を形作る。
本稿では,戦略的文脈化のための潜在変数をモデルに付与する新しい潜在変調フレームワークであるReasoning Paletteを提案する。
論文 参考訳(メタデータ) (2025-12-19T03:32:53Z) - Reasoning with Sampling: Your Base Model is Smarter Than You Think [52.639108524651846]
本稿では,基本モデル自身の可能性を利用した単純な反復サンプリングアルゴリズムを提案する。
我々のアルゴリズムは、ほぼ一致し、RLのアルゴリズムよりも優れているという推論において、大幅に向上することを示した。
我々の方法は、トレーニング、キュレートされたデータセット、検証器を必要としない。
論文 参考訳(メタデータ) (2025-10-16T17:18:11Z) - DecoupleSearch: Decouple Planning and Search via Hierarchical Reward Modeling [56.45844907505722]
二重値モデルを用いて計画と探索プロセスを分離するフレームワークであるDecoupleSearchを提案する。
提案手法は,各ノードが計画と探索のステップを表す推論木を構築する。
推論中、階層的ビームサーチは、計画と探索候補を二重値モデルで反復的に洗練する。
論文 参考訳(メタデータ) (2025-09-07T13:45:09Z) - S-GRPO: Early Exit via Reinforcement Learning in Reasoning Models [2.9925837108958864]
テスト時間スケーリングは、大規模な言語モデルコミュニティに活発な研究対象として現れます。
最近の研究では、推論モデル(Qwen3でさえも過度の思考冗長性を示すことが示されている。
本稿では,新たな強化学習パラダイムであるS-GRPO(Serial-Group Decaying-Reward Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2025-05-12T15:50:44Z) - Unified Multimodal Chain-of-Thought Reward Model through Reinforcement Fine-Tuning [31.727984223052648]
本稿では,最初の統一マルチモーダルCoT型報酬モデルUnifiedReward-Thinkを提案する。
まず、GPT-4oの推論過程を抽出するために、少量の画像生成嗜好データを用いる。
次に、大規模に統一されたマルチモーダル嗜好データを作成し、様々な視覚タスクにわたってモデルの推論プロセスを導出する。
論文 参考訳(メタデータ) (2025-05-06T08:46:41Z) - Provable Meta-Learning with Low-Rank Adaptations [37.120226706944926]
本稿では,PEFTをベースとしたメタラーニングフレームワークを導入し,未知のタスクに容易に適応できるモデルを学習する。
LoRAを用いた線形モデルでは、適応可能なパラメータの集合を見つけるのに標準再学習が確実に最適であることを示す。
我々は、これらの理論的洞察を、実データビジョンや言語タスクと同様に、合成データの実験を通じて検証する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。