論文の概要: The Road Less Traveled: Enhancing Exploration in LLMs via Sequential Sampling
- arxiv url: http://arxiv.org/abs/2510.15502v1
- Date: Fri, 17 Oct 2025 10:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.572336
- Title: The Road Less Traveled: Enhancing Exploration in LLMs via Sequential Sampling
- Title(参考訳): LLMにおけるシークエンシャルサンプリングによる探索の促進
- Authors: Shijia Kang, Muhan Zhang,
- Abstract要約: 強化学習(RL)は,大規模言語モデル(LLM)の推論能力の向上に重要である。
提案するSESA(Sequential SAmpling framework)は,多種多様なソリューションスケッチを逐次生成し,それらを完全な推論経路に拡張する。
合成課題における実験により, 逐次サンプリングは経路の多様性や崩壊からの回復の観点から, 従来のRL法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 39.65138471548881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has been pivotal in enhancing the reasoning capabilities of large language models (LLMs), but it often suffers from limited exploration and entropy collapse, where models exploit a narrow set of solutions, leading to a loss of sampling diversity and subsequently preventing RL from further improving performance. This issue is exacerbated in parallel sampling methods, where multiple outputs are drawn from the same distribution, potentially causing the model to converge to similar solutions. We propose SESA, a novel SEquential SAmpling framework that mitigates this challenge by generating diverse solution sketches sequentially before expanding them into full reasoning paths. This approach ensures broader exploration by conditioning each new output on previous ones, promoting diversity throughout the process and preventing policy collapse. Our experiments on a synthetic task show that sequential sampling consistently outperforms traditional RL methods in terms of path diversity and recovery from collapse. Further evaluations on real-world tasks demonstrate that SESA improves both the exploration of valid strategies and the overall performance of LLMs. On three agent benchmarks, SESA lifts success rates by $+0.25$, $+0.42$, and $+0.07$ absolute over the base model (up to an additional $211\%$ relative improvement over baseline RL), underscoring its exploration advantage. This work introduces a structured approach to exploration, paving the way for more effective and diverse reasoning in RL-trained LLMs. Our code is released at https://github.com/MuLabPKU/sesa.
- Abstract(参考訳): 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高める上で重要な役割を担っているが、しばしば限られた探索とエントロピー崩壊に悩まされる。
この問題は、複数の出力が同じ分布から引き出される並列サンプリング法で悪化し、モデルが同様の解に収束する可能性がある。
提案するSESA(Sequential SAmpling framework)は,多種多様なソリューションスケッチを逐次生成し,それらを完全な推論経路へと拡張することで,この課題を緩和する。
このアプローチは、各新たなアウトプットを以前のものと条件付けし、プロセス全体の多様性を促進し、政策崩壊を防ぐことによって、より広範な探索を可能にする。
合成課題における実験により, 逐次サンプリングは経路の多様性や崩壊からの回復の観点から, 従来のRL法よりも一貫して優れていた。
実世界のタスクに関するさらなる評価は、SESAが有効な戦略の探索とLLMの全体的な性能の両方を改善していることを示している。
3つのエージェントベンチマークでは、SESAはベースモデルに対する成功率を$+0.25$、$+0.42$、$+0.07$で引き上げる(ベースラインRLよりも211\%の相対的な改善が加わった)。
この研究は、RL学習LLMにおいてより効果的で多様な推論を行うための、探索のための構造化されたアプローチを導入している。
私たちのコードはhttps://github.com/MuLabPKU/sesa.comでリリースされています。
関連論文リスト
- Evolution Strategies at Scale: LLM Fine-Tuning Beyond Reinforcement Learning [16.095629872564874]
強化学習はおそらく最も顕著な微調整法である。
進化戦略(ES)はかつて、数百万のパラメータを持つモデルでRLに匹敵する性能を示した。
ESは数十億のパラメータを効率的に探索し、既存のRLファインチューニング手法より優れている。
論文 参考訳(メタデータ) (2025-09-29T07:19:34Z) - Inpainting-Guided Policy Optimization for Diffusion Large Language Models [67.97530437998117]
自己回帰型LLMの代替として,マスケッド拡散大言語モデル (dLLM) が登場している。
本稿では,dLLMに対するRLアルゴリズムの設計について検討する。
論文 参考訳(メタデータ) (2025-09-12T16:44:31Z) - Outcome-based Exploration for LLM Reasoning [18.33816564983908]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルの推論能力を向上させる強力な手法として登場した。
ベースモデルに対するトレーニングセットにおいても,RLは効果的な多様性を低下させることができることを示す。
最終結果に応じて探索ボーナスを割り当てる結果に基づく探索を提案する。
論文 参考訳(メタデータ) (2025-09-08T17:52:56Z) - RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization [86.30192066451256]
大規模言語モデル(LLM)のための新しいハイブリッド政治最適化手法RL-PLUSを提案する。
RL-PLUSは、外部データと内部エクスプロイトを相乗化して、より強力な推論能力を達成し、ベースモデルのバウンダリを超える。
提案手法の優位性と一般化性を示すため,理論解析と広範な実験を行った。
論文 参考訳(メタデータ) (2025-07-31T23:55:29Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。