論文の概要: Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2602.01698v1
- Date: Mon, 02 Feb 2026 06:12:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.945917
- Title: Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models
- Title(参考訳): 訓練後の再検討:大規模推論モデルのための潜時探索デコード
- Authors: Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan,
- Abstract要約: ラテント探索復号(Latent Exploration Decoding、LED)は、深度条件付き復号法である。
LEDは、複数の推論ベンチマークとモデルでパス@1とパス@16の精度を0.61と1.03ポイント改善している。
- 参考スコア(独自算出の注目度): 49.453104834621286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Reasoning Models (LRMs) have recently achieved strong mathematical and code reasoning performance through Reinforcement Learning (RL) post-training. However, we show that modern reasoning post-training induces an unintended exploration collapse: temperature-based sampling no longer increases pass@$n$ accuracy. Empirically, the final-layer posterior of post-trained LRMs exhibit sharply reduced entropy, while the entropy of intermediate layers remains relatively high. Motivated by this entropy asymmetry, we propose Latent Exploration Decoding (LED), a depth-conditioned decoding strategy. LED aggregates intermediate posteriors via cumulative sum and selects depth configurations with maximal entropy as exploration candidates. Without additional training or parameters, LED consistently improves pass@1 and pass@16 accuracy by 0.61 and 1.03 percentage points across multiple reasoning benchmarks and models. Project page: https://GitHub.com/Xiaomi-Research/LED.
- Abstract(参考訳): 大規模推論モデル(LRM)は最近、強化学習(RL)のポストトレーニングを通じて、強力な数学的およびコード推論のパフォーマンスを達成した。
しかし, 温度ベースサンプリングではパス@$n$の精度が向上しなくなった。
実験により, 後処理後LRMの最終層はエントロピーが著しく低下するのに対して, 中間層のエントロピーは比較的高いままであった。
このエントロピー非対称性を動機として,深度条件付き復号法であるLatent Exploration Decoding (LED)を提案する。
LEDは累積和を介して中間後部を集約し、探索候補として最大エントロピーを持つ深さ構成を選択する。
追加のトレーニングやパラメータがなければ、LEDはパス@1とパス@16の精度を複数の推論ベンチマークやモデルで0.61と1.03ポイント向上する。
プロジェクトページ:https://GitHub.com/Xiaomi-Research/LED
関連論文リスト
- TL;DR: Too Long, Do Re-weighting for Efficient LLM Reasoning Compression [55.37723860832064]
高度なデータアノテーションに依存しない動的比に基づくトレーニングパイプラインを提案する。
我々は、DeepSeek-R1-Distill-7BとDeepSeek-R1-Distill-14Bのモデルと、様々な難易度を持つ様々なベンチマークのモデルに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-06-03T09:23:41Z) - Learn to Reason Efficiently with Adaptive Length-based Reward Shaping [23.626013831589212]
大規模共振モデル(LRM)は、強化学習(RL)を通して複雑な問題を解く際、顕著な能力を示した。
本稿では,長さに基づく報酬形成のレンズを用いて,様々な効率的な推論手法を定式化する統一フレームワークを提案する。
DeepSeek-R1-Distill-Qwen-1.5B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-32Bの実験により、本手法は推論性能と応答長の効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-05-21T15:03:26Z) - MM-Eureka: Exploring the Frontiers of Multimodal Reasoning with Rule-based Reinforcement Learning [55.82649731348012]
MMK12データセットとMM-EUREKAを7B,32Bパラメータで導入する。
前者は、人間の検証された答えと解法を含む多様な知識領域を特徴とする高品質なマルチモーダル数学推論データセットである。
後者は,オンラインフィルタリングを利用したルールベース強化学習と,トレーニング安定性を高めるための2段階トレーニング戦略を用いたマルチモーダルモデルである。
論文 参考訳(メタデータ) (2025-03-10T14:23:12Z) - LESA: Learnable LLM Layer Scaling-Up [57.0510934286449]
LLM(Large Language Models)をスクラッチからトレーニングするには膨大な計算資源が必要であるため、非常に高価である。
モデルスケーリングアップは、より小さなモデルのパラメータを活用してより大きなモデルを作成することで、有望なソリューションを提供する。
深度スケールアップのための新しい学習方法である textbfLESA を提案する。
論文 参考訳(メタデータ) (2025-02-19T14:58:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。