論文の概要: Mitigating Premature Exploitation in Particle-based Monte Carlo for Inference-Time Scaling
- arxiv url: http://arxiv.org/abs/2510.05825v1
- Date: Tue, 07 Oct 2025 11:48:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.230774
- Title: Mitigating Premature Exploitation in Particle-based Monte Carlo for Inference-Time Scaling
- Title(参考訳): 推測時間スケーリングのための粒子系モンテカルロの早期爆発の緩和
- Authors: Giorgio Giannone, Guangxuan Xu, Nikhil Shivakumar Nayak, Rohan Mahesh Awhad, Shivchander Sudalairaj, Kai Xu, Akash Srivastava,
- Abstract要約: 推論時間スケーリング(ITS)は、世代毎により多くの計算を割り当てることで、言語モデルを改善する。
PFは複雑な数学的推論タスクのための強力なITS手法として登場した。
プロセス報酬モデルによって導かれると脆弱性があり、しばしば推論プロセスの早い段階で過信のスコアを割り当てる。
この障害モードは、特に制約された計算予算の下では、パーティクル・インバディション(Particle Impoverishment)として知られている。
本稿では,この問題を解決するために2つの新しい手法を統合するアルゴリズムであるEntropic Particle Filtering (ePF)を紹介する。
- 参考スコア(独自算出の注目度): 15.828750560145751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-Time Scaling (ITS) improves language models by allocating more computation at generation time. Particle Filtering (PF) has emerged as a strong ITS method for complex mathematical reasoning tasks, but it is vulnerable when guided by process reward models, which often assign overconfident scores early in the reasoning process. This causes PF to suffer from premature exploitation: it myopically commits to locally promising trajectories, prunes potentially correct hypotheses, and converges to suboptimal solutions. This failure mode, known as particle impoverishment, is especially severe under constrained computational budgets. To address this, we analyze the problem and identify two root causes: a lack of diversity in the particle set due to overconfident resampling and consequent inability to assess the potential of a reasoning path. We introduce Entropic Particle Filtering (ePF), an algorithm that integrates two new techniques to solve these issues. The first technique, Entropic Annealing (EA), directly mitigates particle impoverishment by monitoring search diversity via entropy; when diversity drops, it intervenes by dynamically annealing the resampling distribution to preserve exploration. The second, an enhancement called Look-ahead Modulation (LaM), adds a predictive guide to evaluate a state's potential based on its successors. On several challenging math benchmarks, ePF significantly outperforms strong baselines and achieves up to a 50 % relative improvement in task reward. Together, these methods improve PF's resilience by balancing the exploration of diverse solution spaces with the exploitation of high-reward regions, ultimately leading to higher-quality solutions.
- Abstract(参考訳): 推論時間スケーリング(ITS)は、世代毎により多くの計算を割り当てることで、言語モデルを改善する。
PF(Particle Filtering)は、複雑な数学的推論タスクのための強力なITS手法として登場したが、プロセス報酬モデルによって導かれると脆弱である。
PFはミオプティックに、局所的に有望な軌道にコミットし、プーンは仮説を正し、準最適解に収束する。
この障害モードは、特に制約された計算予算の下では、パーティクル・インバディション(Particle Impoverishment)として知られている。
この問題に対処するために、我々は問題を解析し、2つの根本原因を同定する: 粒子集合の多様性の欠如 過剰な再サンプリングとそれに伴う推論経路の可能性を評価することができない。
本稿では,この問題を解決するために2つの新しい手法を統合するアルゴリズムであるEntropic Particle Filtering (ePF)を紹介する。
第一の手法であるエントロピーアニーリング(EA)は、エントロピーによる探索の多様性の監視によって直接粒子の汚染を軽減し、多様性が低下すると、再サンプリング分布を動的に加熱して探索を保存する。
第二に、Look-ahead Modulation (LaM)と呼ばれる拡張は、その後継者に基づいて州のポテンシャルを評価するための予測ガイドを追加する。
いくつかの挑戦的な数学ベンチマークでは、ePFは強いベースラインを著しく上回り、タスク報酬の相対的な改善を最大50%達成している。
これらの手法が組み合わさって、多種多様な解空間の探索と高次領域の活用のバランスをとることにより、PFのレジリエンスが向上し、最終的には高品質な解へと繋がる。
関連論文リスト
- Improving monotonic optimization in heterogeneous multi-agent reinforcement learning with optimal marginal deterministic policy gradient [18.64288030584699]
異種多エージェント強化学習(MARL)
逐次計算された$Q_psi*(s,a_1:i)$を、Q関数から派生した$phi_psi*(s,a_1:i)$に客観的に置き換える。
一般化Q批判(GQC)を批判関数とし、悲観的不確実性制約損失を用いて異なるQ値推定を最適化する。
論文 参考訳(メタデータ) (2025-07-14T07:16:01Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Pseudospectral method for solving PDEs using Matrix Product States [0.0]
本研究では,行列積状態(MPS)を用いた時間依存偏微分方程式(PDE)の解くことに焦点を当てる。
本稿では,Hermite Distributed Approximating Functions(HDAF)をMPSに拡張する手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T17:53:38Z) - Persistent Sampling: Enhancing the Efficiency of Sequential Monte Carlo [0.0]
連続モンテカルロサンプリング(SMC)はベイズ推論の強力なツールであるが、高い計算コストに悩まされている。
我々は、SMCを維持し、全ての先行イテレーションから粒子を構成する永続サンプリング(PS)を導入する。
論文 参考訳(メタデータ) (2024-07-30T10:34:40Z) - Non-convex Bayesian Learning via Stochastic Gradient Markov Chain Monte
Carlo [4.656426393230839]
人工知能(AI)の台頭は、非トリップと不確実性のための現代のディープニューラルネットワーク(DNN)の効率性を重視している。
本論文ではモンテカルロ利用問題を扱うためのツールを提案する。
また,基礎となる正規方程式(ODE)システムに対する2つの動的重要度サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-05-30T18:25:11Z) - PAPAL: A Provable PArticle-based Primal-Dual ALgorithm for Mixed Nash Equilibrium [58.26573117273626]
2プレイヤゼロサム連続ゲームにおける非AL平衡非漸近目的関数について考察する。
連続分布戦略のための粒子ベースアルゴリズムに関する新しい知見を述べる。
論文 参考訳(メタデータ) (2023-03-02T05:08:15Z) - Harnessing Heterogeneity: Learning from Decomposed Feedback in Bayesian
Modeling [68.69431580852535]
サブグループフィードバックを取り入れた新しいGPレグレッションを導入する。
我々の修正された回帰は、以前のアプローチと比べて、明らかにばらつきを減らし、したがってより正確な後続を減らした。
我々は2つの異なる社会問題に対してアルゴリズムを実行する。
論文 参考訳(メタデータ) (2021-07-07T03:57:22Z) - Second-Order Guarantees in Centralized, Federated and Decentralized
Nonconvex Optimization [64.26238893241322]
単純なアルゴリズムは、多くの文脈において優れた経験的結果をもたらすことが示されている。
いくつかの研究は、非最適化問題を研究するための厳密な分析的正当化を追求している。
これらの分析における重要な洞察は、摂動が局所的な降下アルゴリズムを許容する上で重要な役割を担っていることである。
論文 参考訳(メタデータ) (2020-03-31T16:54:22Z) - Targeted free energy estimation via learned mappings [66.20146549150475]
自由エネルギー摂動 (FEP) は60年以上前にズワンツィヒによって自由エネルギー差を推定する方法として提案された。
FEPは、分布間の十分な重複の必要性という厳しい制限に悩まされている。
目標自由エネルギー摂動(Targeted Free Energy Perturbation)と呼ばれるこの問題を緩和するための1つの戦略は、オーバーラップを増やすために構成空間の高次元マッピングを使用する。
論文 参考訳(メタデータ) (2020-02-12T11:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。