論文の概要: Power-SMC: Low-Latency Sequence-Level Power Sampling for Training-Free LLM Reasoning
- arxiv url: http://arxiv.org/abs/2602.10273v1
- Date: Tue, 10 Feb 2026 20:31:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.273021
- Title: Power-SMC: Low-Latency Sequence-Level Power Sampling for Training-Free LLM Reasoning
- Title(参考訳): Power-SMC:トレーニング不要LLM推論のための低レイテンシシーケンスレベルパワーサンプリング
- Authors: Seyedarmin Azizi, Erfan Baghaei Potraghloo, Minoo Ahmadi, Souvik Kundu, Massoud Pedram,
- Abstract要約: トレーニング不要なSequential Monte CarloスキームであるPower-SMCを導入する。
MATH500では、Power-SMCはMHの電力サンプリングと一致し、レイテンシを16$---28times$から1.4$---3.3times$に下げる。
- 参考スコア(独自算出の注目度): 11.356198488445488
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many recent reasoning gains in large language models can be explained as distribution sharpening: biasing generation toward high-likelihood trajectories already supported by the pretrained model, rather than modifying its weights. A natural formalization is the sequence-level power distribution $π_α(y\mid x)\propto p_θ(y\mid x)^α$ ($α>1$), which concentrates mass on whole sequences instead of adjusting token-level temperature. Prior work shows that Metropolis--Hastings (MH) sampling from this distribution recovers strong reasoning performance, but at order-of-magnitude inference slowdowns. We introduce Power-SMC, a training-free Sequential Monte Carlo scheme that targets the same objective while remaining close to standard decoding latency. Power-SMC advances a small particle set in parallel, corrects importance weights token-by-token, and resamples when necessary, all within a single GPU-friendly batched decode. We prove that temperature $τ=1/α$ is the unique prefix-only proposal minimizing incremental weight variance, interpret residual instability via prefix-conditioned Rényi entropies, and introduce an exponent-bridging schedule that improves particle stability without altering the target. On MATH500, Power-SMC matches or exceeds MH power sampling while reducing latency from $16$--$28\times$ to $1.4$--$3.3\times$ over baseline decoding.
- Abstract(参考訳): 重みを変更するのではなく、事前訓練されたモデルですでに支持されている高次軌道に対する偏りの生成である。
自然な形式化は、トークンレベルの温度を調整する代わりに全列に質量を集中させる、シーケンスレベルの電力分布 $π_α(y\mid x)\propto p_θ(y\mid x)^α$$$(α>1$) である。
この分布から抽出したメトロポリス・ハスティングス(MH)は強い推論性能を回復するが、オーダー・オブ・マグニチュードの推論速度は低下する。
トレーニング不要なSequential Monte CarloスキームであるPower-SMCを導入する。
Power-SMCは小さなパーティクルセットを並列に前進させ、重要な重みをトークン単位で修正し、必要に応じて再サンプリングする。
温度$τ=1/α$は、漸進的な重みの分散を最小限に抑え、プレフィックス条件付きレニーエントロピーによる残留不安定を解釈し、目標を変更することなく粒子の安定性を向上する指数的ブリジングスケジュールを導入するという独特なプレフィックスのみの提案であることを示す。
MATH500では、Power-SMCはMH電力サンプリングと一致し、レイテンシを16$--$28\times$から1.4$--$3.3\times$に下げる。
関連論文リスト
- Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Robust Layerwise Scaling Rules by Proper Weight Decay Tuning [50.11170157029911]
現代のスケール不変アーキテクチャでは、トレーニングは急速に劣化したグラデーション状態に入る。
我々は,AdamWに対して,幅をまたいだサブ層ゲインを保ったウェイトデカイスケーリングルールを導入する。
この結果は,パラメータが設定した定常スケールを明示的に制御することにより,ほぼ入出力体制を超えて$mu$Pを拡大する。
論文 参考訳(メタデータ) (2025-10-17T02:58:35Z) - Spectral gap of Metropolis-within-Gibbs under log-concavity [1.4466802614938334]
MwG(Metropolis-within-Gibbs)アルゴリズムは、高次元分布からサンプリングするためのマルコフ連鎖モンテカルロ法である。
我々は,MwGをRandom Walk Metropolis (RWM) 更新を用いて検討し,目標の条件変動に合わせるように調整された提案分散を用いて検討した。
その結果,MwGは分散適応型提案とかなり高速な混合が可能であり,その混合性能はギブスサンプリング器よりもわずかに劣ることがわかった。
論文 参考訳(メタデータ) (2025-09-30T12:31:22Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - FedSVD: Adaptive Orthogonalization for Private Federated Learning with LoRA [68.44043212834204]
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
Low-Rank Adaptation (LoRA) は、学習における言語モデルの効率的な微調整に広く用いられている。
論文 参考訳(メタデータ) (2025-05-19T07:32:56Z) - FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。
本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。
LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文 参考訳(メタデータ) (2024-10-12T08:10:28Z) - Langevin Quasi-Monte Carlo [6.146093081175471]
ランゲヴィン・モンテカルロ(LMC)とその勾配バージョンは複雑な高次元分布からサンプリングする強力なアルゴリズムである。
準ランダムサンプルを用いてLCCの推定誤差を低減できることを示す。
論文 参考訳(メタデータ) (2023-09-22T07:15:18Z) - Quasi-Newton Quasi-Monte Carlo for variational Bayes [8.75682288556859]
このような問題に対するランダム化準モンテカルロ(RQMC)サンプリングの使用を検討する。
サンプリング精度の向上は、好ましい設定で直接$o(n-1/2)$となることが証明される。
論文 参考訳(メタデータ) (2021-04-07T02:34:03Z) - AMAGOLD: Amortized Metropolis Adjustment for Efficient Stochastic
Gradient MCMC [37.768023232677244]
ハミルトニアン・モンテカルロ(英語版)(SGHMC)は、連続分布からサンプリングする効率的な方法である。
本稿では、しばしばメトロポリス・ハスティング(M-H)補正を用いてバイアスを除去する2次SG-MCMCアルゴリズム--AMAGOLDを提案する。
我々は, AMAGOLD が減少するステップサイズではなく, 目標分布に収束し, 収束速度が全バッチベースラインよりも遅くなることを証明した。
論文 参考訳(メタデータ) (2020-02-29T06:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。