論文の概要: Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference
- arxiv url: http://arxiv.org/abs/2603.07887v1
- Date: Mon, 09 Mar 2026 01:50:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.338421
- Title: Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference
- Title(参考訳): Reject, Resample, Repeat: 言語モデル推論における並列推論の理解
- Authors: Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy,
- Abstract要約: 複数のサンプルを集約・プルークする推論時間法が,大規模言語モデルを操る強力なパラダイムとして登場した。
SMC (Sequential Monte Carlo) のような * Particle filtering* アルゴリズムのレンズを用いて,そのようなアプローチを厳格に研究する手法を導入する。
- 参考スコア(独自算出の注目度): 60.48486820968353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time methods that aggregate and prune multiple samples have emerged as a powerful paradigm for steering large language models, yet we lack any principled understanding of their accuracy-cost tradeoffs. In this paper, we introduce a route to rigorously study such approaches using the lens of *particle filtering* algorithms such as Sequential Monte Carlo (SMC). Given a base language model and a *process reward model* estimating expected terminal rewards, we ask: *how accurately can we sample from a target distribution given some number of process reward evaluations?* Theoretically, we identify (1) simple criteria enabling non-asymptotic guarantees for SMC; (2) algorithmic improvements to SMC; and (3) a fundamental limit faced by all particle filtering methods. Empirically, we demonstrate that our theoretical criteria effectively govern the *sampling error* of SMC, though not necessarily its final *accuracy*, suggesting that theoretical perspectives beyond sampling may be necessary.
- Abstract(参考訳): 複数サンプルを集約・帰属する推論時手法は,大規模言語モデルを操る強力なパラダイムとして現れてきたが,精度とコストのトレードオフに関する基本的な理解は欠如している。
本稿では,SMC (Sequential Monte Carlo) のような * Particle filtering* アルゴリズムのレンズを用いて,そのようなアプローチを厳格に研究する手法を提案する。
ベース言語モデルと*プロセス報酬モデル* 期待される端末報酬を推定する* 対象のディストリビューションから、プロセス報酬の評価がいくつかある場合、どのくらい正確にサンプリングできるのか?
※理論上,(1)SMCの非漸近的保証を実現するための単純な基準,(2)SMCのアルゴリズム的改善,(3)全ての粒子フィルタリング法が直面する基本的な限界を同定する。
実験的に、我々の理論的基準がSMCの*サンプリング誤差*を効果的に支配することを示したが、必ずしも最終的な*正確性*ではない。
関連論文リスト
- Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Syntactic Control of Language Models by Posterior Inference [53.823006836309695]
言語モデルによって生成されたテキストの構文構造を制御することは、明快さ、スタイリスティックな一貫性、解釈可能性を必要とするアプリケーションにとって重要である。
後部推論に基づくサンプリングアルゴリズムは、生成中に対象の選挙区構造を効果的に強制することができると論じる。
提案手法では,提案分布からのサンプリングにより後続分布を推定するモンテカルロ法と,各生成したトークンが所望の構文構造に整合することを保証する統語タグを併用する。
論文 参考訳(メタデータ) (2025-06-08T14:01:34Z) - Constrained Sampling for Language Models Should Be Easy: An MCMC Perspective [31.37618506317961]
制約付き復号化により、言語モデルは、確実に厳しい制約を満たすサンプルを作成することができる。
既存の制約付きデコードアプローチは、基礎となるモデル分布を歪ませる。
我々はマルコフ・チェイン・モンテカルロに基づく新しい制約付きサンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-06T05:28:20Z) - Convergence for score-based generative modeling with polynomial
complexity [9.953088581242845]
我々は、Scoreベースの生成モデルの背後にあるコアメカニックに対する最初の収束保証を証明した。
以前の作品と比較すると、時間的に指数関数的に増加するエラーや、次元の呪いに苦しむエラーは発生しない。
予測器・相関器はどちらの部分のみを使用するよりも収束性が高いことを示す。
論文 参考訳(メタデータ) (2022-06-13T14:57:35Z) - A Survey of Monte Carlo Methods for Parameter Estimation [0.0]
本稿では,信号処理応用における静的パラメータ推定のためのモンテカルロ法について検討する。
MCスキームの開発に関する歴史的注記も提供され、続いて基本MC法とリジェクションサンプリング(RS)アルゴリズムの簡潔な記述がなされている。
論文 参考訳(メタデータ) (2021-07-25T14:57:58Z) - Breaking the Sample Size Barrier in Model-Based Reinforcement Learning
with a Generative Model [50.38446482252857]
本稿では、生成モデル(シミュレータ)へのアクセスを想定して、強化学習のサンプル効率について検討する。
最初に$gamma$-discounted infinite-horizon Markov decision process (MDPs) with state space $mathcalS$ and action space $mathcalA$を考える。
対象の精度を考慮すれば,モデルに基づく計画アルゴリズムが最小限のサンプルの複雑さを実現するのに十分であることを示す。
論文 参考訳(メタデータ) (2020-05-26T17:53:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。