論文の概要: Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening
- arxiv url: http://arxiv.org/abs/2601.21590v1
- Date: Thu, 29 Jan 2026 12:01:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.783213
- Title: Scalable Power Sampling: Unlocking Efficient, Training-Free Reasoning for LLMs via Distribution Sharpening
- Title(参考訳): スケーラブルパワーサンプリング - 分散シャープニングによるLCMの効率向上と学習自由推論
- Authors: Xiaotong Ji, Rasul Tutunov, Matthieu Zimmer, Haitham Bou Ammar,
- Abstract要約: 本稿では,ベースモデルの自己回帰的生成分布を高速化する,学習不要かつ検証不要なアルゴリズムを提案する。
提案手法は,外部の報酬に頼らずに1ショットのGRPOに適合または超過し,推論遅延を10倍以上削減する。
- 参考スコア(独自算出の注目度): 14.647624238539777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) post-training is a dominant approach for improving the reasoning performance of large language models (LLMs), yet growing evidence suggests that its gains arise primarily from distribution sharpening rather than the acquisition of new capabilities. Recent work has shown that sampling from the power distribution of LLMs using Markov chain Monte Carlo (MCMC) can recover performance comparable to RL post-training without relying on external rewards; however, the high computational cost of MCMC makes such approaches impractical for widespread adoption. In this work, we propose a theoretically grounded alternative that eliminates the need for iterative MCMC. We derive a novel formulation showing that the global power distribution can be approximated by a token-level scaled low-temperature one, where the scaling factor captures future trajectory quality. Leveraging this insight, we introduce a training-free and verifier-free algorithm that sharpens the base model's generative distribution autoregressively. Empirically, we evaluate our method on math, QA, and code tasks across four LLMs, and show that our method matches or surpasses one-shot GRPO without relying on any external rewards, while reducing inference latency by over 10x compared to MCMC-based sampling.
- Abstract(参考訳): 強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)の推論性能を改善するための主要なアプローチであるが、その利点は、新しい能力の獲得よりも、主に分布のシャープニングから生じることを示唆する証拠が増えている。
近年の研究では、マルコフ連鎖モンテカルロ(MCMC)を用いたLLMの電力分布のサンプリングは、外部の報酬に頼ることなく、RLポストトレーニングに匹敵する性能を回復できることが示されているが、MCMCの計算コストが高いため、広く普及するには実用的ではない。
本研究では,MCMCを反復的に行う必要がなくなる理論的な代替案を提案する。
トークンレベルのスケールの低い温度で大域的な電力分布を近似できることを示す新しい定式化法を導出し、スケーリング係数が将来の軌道品質を捉える。
この知見を生かして、ベースモデルの自己回帰的生成分布を鋭くする、トレーニング不要かつ検証不要なアルゴリズムを導入する。
実験により,4つのLLMにおける数学,QA,およびコードタスクに関する手法の評価を行い,MCMCに基づくサンプリングに比べて推論遅延を10倍以上に抑えながら,外部の報酬に頼らずに1ショットのGRPOに適合または超えることを示す。
関連論文リスト
- Language Ranker: A Lightweight Ranking framework for LLM Decoding [70.01564145836129]
本稿では,レコメンデーションパイプラインのランク付け段階に類似した復号過程を概念化する。
この知見に触発されて、我々はLanguage Rankerを提案する。
実験の結果、Language Rankerは大規模報酬モデルに匹敵するパフォーマンスを達成する一方で、0.5Mの追加パラメータしか必要としないことがわかった。
論文 参考訳(メタデータ) (2025-10-23T17:56:46Z) - Reasoning with Sampling: Your Base Model is Smarter Than You Think [52.639108524651846]
本稿では,基本モデル自身の可能性を利用した単純な反復サンプリングアルゴリズムを提案する。
我々のアルゴリズムは、ほぼ一致し、RLのアルゴリズムよりも優れているという推論において、大幅に向上することを示した。
我々の方法は、トレーニング、キュレートされたデータセット、検証器を必要としない。
論文 参考訳(メタデータ) (2025-10-16T17:18:11Z) - Small LLMs Do Not Learn a Generalizable Theory of Mind via Reinforcement Learning [1.6114012813668932]
小言語モデル(LLM)は、精神の理論(ToM)能力の開発に苦慮している。
長いRLトレーニングは、トレーニングデータセットの統計パターンをハッキングするモデルにつながる。
これは学習された振る舞いが、真の抽象的なToM能力の獲得ではなく、狭いオーバーフィッティングの形式であることを示唆している。
論文 参考訳(メタデータ) (2025-07-21T16:47:59Z) - DUMP: Automated Distribution-Level Curriculum Learning for RL-based LLM Post-training [25.91869315787235]
本稿では,分布レベルの学習可能性の概念に基づくカリキュラム学習フレームワークを提案する。
我々のフレームワークは、高い平均的優位性(探索)または低いサンプル数(探索)で分布を優先順位付けする。
実験の結果,本フレームワークは収束速度と最終性能を大幅に改善することがわかった。
論文 参考訳(メタデータ) (2025-04-13T20:10:27Z) - Inference-Time Scaling for Generalist Reward Modeling [29.94803128931568]
強化学習(RL)は大規模言語モデル(LLM)のポストトレーニングにおいて広く採用されている。
RLの主な課題は、検証可能な質問や人工ルールを超えて、様々な領域のLLMに対して正確な報酬信号を得ることである。
本研究では,一般問合せに対する推論計算により,報酬モデルを改善する方法について検討する。
論文 参考訳(メタデータ) (2025-04-03T11:19:49Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。