論文の概要: The Model Knows, the Decoder Finds: Future Value Guided Particle Power Sampling
- arxiv url: http://arxiv.org/abs/2605.02427v1
- Date: Mon, 04 May 2026 10:26:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.235728
- Title: The Model Knows, the Decoder Finds: Future Value Guided Particle Power Sampling
- Title(参考訳): デコーダが知るモデル: 将来の値誘導粒子パワーサンプリング
- Authors: Tu Nguyen, Rasul Tutunov, Xiaotong Ji, Matthieu Zimmer,
- Abstract要約: Auxiliary Particle Power Sampling (APPS) は、列レベルのパワーターゲットを部分解の集団で近似するブロックワイズ粒子アルゴリズムである。
APPSは提案訂正された電力再重み付けを用いて仮説を並列に伝播し、将来の価値誘導選択によってその生存を洗練させる。
APPSは、トレーニング不要なデコーディングの精度と実行時のトレードオフを改善し、トレーニング後のシステムとのギャップの一部は、より忠実な推論時電力近似によって回復可能であることを示唆している。
- 参考スコア(独自算出の注目度): 4.97006594943183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recurring pattern in "reasoning without training" is that base LLMs already assign non-trivial probability mass to correct multi-step solutions; the bottleneck is locating these modes efficiently at inference time. Power sampling provides a principled way to bias decoding toward such modes by targeting p_theta(x)^alpha with alpha > 1, but practical approximations must account for future-dependent correction factors that determine which prefixes remain promising. We introduce Auxiliary Particle Power Sampling (APPS), a blockwise particle algorithm for approximating the sequence-level power target with a bounded population of partial solutions. APPS propagates hypotheses in parallel using proposal-corrected power reweighting and refines their survival through future-value-guided selection at resampling boundaries. This redistributes finite compute across competing prefixes rather than committing to a single unfolding path, while providing a direct scaling knob in the particle count and predictable peak memory. We instantiate the future-value signal with short-horizon rollouts and also study an amortized variant that replaces rollouts with a lightweight learned selection head. Across reasoning benchmarks, APPS improves the accuracy-runtime trade-off of training-free decoding and suggests that part of the gap to post-trained systems can be recovered through more faithful inference-time power approximation.
- Abstract(参考訳): トレーニングなし推論」における繰り返しパターンは、ベースLSMが既に多段階解の修正に非自明な確率質量を割り当てていることである。
パワーサンプリングは、p_theta(x)^alphaをα > 1 でターゲットすることで、そのようなモードに対するバイアスデコーディングの原理的な方法を提供するが、実際的な近似は、どのプレフィックスが有望かを決定する将来の依存的な補正要因を考慮しなければならない。
本稿では,部分解の有界集団で列レベルのパワーターゲットを近似するブロックワイズ粒子サンプリングアルゴリズムであるAuxiliary Particle Power Sampling (APPS)を紹介する。
APPSは、提案の修正された電力再重み付けを用いて仮説を並列に伝播し、将来の値誘導選択によって再サンプリング境界における生存を改良する。
これにより、単一の展開パスにコミットするのではなく、競合するプレフィックス間で有限計算を再分割し、パーティクルカウントと予測可能なピークメモリに直接スケーリングノブを提供する。
我々は、短水平ロールアウトで将来値信号をインスタンス化し、また、ロールアウトを軽量な学習選択ヘッドで置き換えるアモータイズされた変種を研究する。
推論ベンチマーク全体を通じて、APPSはトレーニング不要なデコーディングの精度と実行時のトレードオフを改善し、トレーニング後のシステムとのギャップの一部は、より忠実な推論時パワー近似によって回復可能であることを示唆している。
関連論文リスト
- Think Twice Before You Write -- an Entropy-based Decoding Strategy to Enhance LLM Reasoning [32.332197731504046]
デコード戦略は、大きな言語モデルの推論能力を形成する上で、中心的な役割を果たす。
グレディ復号やビームサーチといった従来の手法は、しばしばエラーの伝播に悩まされる。
本稿では,トークンレベルの適応性を世代に導入するエントロピー誘導復号化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-10T23:08:26Z) - Score-Guided Proximal Projection: A Unified Geometric Framework for Rectified Flow Editing [1.0312968200748118]
Rectified Flowモデルは最先端の世代品質を実現するが、正確なタスクのためにそれらを制御することは依然として困難である。
現在のアプローチは「幾何学的ロック」に苦しむ逆法に基づくガイダンスに分岐する
Score-Guided Proximal Projectionは,決定論的最適化と縮尺サンプリングのギャップを埋める統一フレームワークである。
論文 参考訳(メタデータ) (2026-03-05T23:44:45Z) - Predicting LLM Output Length via Entropy-Guided Representations [13.351384070796747]
本稿では,本モデルの内部隠蔽状態を有効長予測のために再利用する軽量フレームワークを提案する。
1) オンザフライアクティベーションとトークンエントロピーを用いて高精度な静的予測を行うEGTP (Entropy-Guided Token Pooling) である。
論文 参考訳(メタデータ) (2026-02-12T10:49:04Z) - Learnable Chernoff Baselines for Inference-Time Alignment [64.81256817158851]
本稿では,指数関数的に傾いたカーネルから効率よく,およそサンプリングする方法として,Learnerable Chernoff Baselinesを紹介した。
理想的なモデルに対する全変量保証を確立し、LCBサンプリングが理想的拒絶サンプリングと密接に一致するような連続的および離散的な拡散設定を実証する。
論文 参考訳(メタデータ) (2026-02-08T00:09:40Z) - ResAD: Normalized Residual Trajectory Modeling for End-to-End Autonomous Driving [64.42138266293202]
ResADは正規化された残留軌道モデリングフレームワークである。
学習タスクを再編成し、慣性参照からの残留偏差を予測する。
NAVSIMベンチマークでは、ResADはバニラ拡散ポリシーを用いて最先端のPDMS 88.6を達成している。
論文 参考訳(メタデータ) (2025-10-09T17:59:36Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Stochastic Gradient Piecewise Deterministic Monte Carlo Samplers [3.487370856323828]
近年の研究では、モンテカルロ法を用いて、目的とする関心の分布から標本を抽出することを提案している。
後方分布からのスケーラブルサンプリングのためのサブサンプリングによるPDMPの近似シミュレーションを提案する。
これらの手法は実装が容易であることが示され、近似誤差の結果を示し、このアルゴリズムのクラスが勾配ランゲヴィン力学と類似の効率を持つことを示す。
論文 参考訳(メタデータ) (2024-06-27T09:59:28Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Plug-and-Play split Gibbs sampler: embedding deep generative priors in
Bayesian inference [12.91637880428221]
本稿では, 後方分布から効率的にサンプリングするために, 可変分割を利用したプラグアンドプレイサンプリングアルゴリズムを提案する。
後方サンプリングの課題を2つの単純なサンプリング問題に分割する。
その性能は最近の最先端の最適化とサンプリング手法と比較される。
論文 参考訳(メタデータ) (2023-04-21T17:17:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。