論文の概要: Martingale Foresight Sampling: A Principled Approach to Inference-Time LLM Decoding
- arxiv url: http://arxiv.org/abs/2601.15482v1
- Date: Wed, 21 Jan 2026 21:34:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.422357
- Title: Martingale Foresight Sampling: A Principled Approach to Inference-Time LLM Decoding
- Title(参考訳): Martingale Foresight Smpling: 推論時間LLMデコードに対する原則的アプローチ
- Authors: Huayu Li, ZhengXiao He, Siyuan Tian, Jinghao Wen, Ao Li,
- Abstract要約: 本稿では,大規模言語モデルの復号化を行う原則的フレームワークであるMartingale Foresight Theory(MFS)を紹介する。
MFSは、理論的な基底アルゴリズムを設計するために、確率論の原理でメカニズムを置き換える。
6つの推論ベンチマークの実験により、MSFは最先端の手法を精度で超越し、計算効率は大幅に向上した。
- 参考スコア(独自算出の注目度): 4.6591491654801835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard autoregressive decoding in large language models (LLMs) is inherently short-sighted, often failing to find globally optimal reasoning paths due to its token-by-token generation process. While inference-time strategies like foresight sampling attempt to mitigate this by simulating future steps, they typically rely on ad-hoc heuristics for valuing paths and pruning the search space. This paper introduces Martingale Foresight Sampling (MFS), a principled framework that reformulates LLM decoding as a problem of identifying an optimal stochastic process. By modeling the quality of a reasoning path as a stochastic process, we leverage Martingale theory to design a theoretically-grounded algorithm. Our approach replaces heuristic mechanisms with principles from probability theory: step valuation is derived from the Doob Decomposition Theorem to measure a path's predictable advantage, path selection uses Optional Stopping Theory for principled pruning of suboptimal candidates, and an adaptive stopping rule based on the Martingale Convergence Theorem terminates exploration once a path's quality has provably converged. Experiments on six reasoning benchmarks demonstrate that MFS surpasses state-of-the-art methods in accuracy while significantly improving computational efficiency. Code will be released at https://github.com/miraclehetech/EACL2026-Martingale-Foresight-Sampling.
- Abstract(参考訳): 大規模言語モデル(LLM)における標準自己回帰復号法は本質的に近視眼的であり、トークン・バイ・トークン生成プロセスにより、大域的に最適な推論経路が見つからないことが多い。
フォレストサンプリングのような推論時間戦略は、将来のステップをシミュレートすることでこれを緩和しようとするが、通常はパスを評価し、検索空間を刈り取るためにアドホックなヒューリスティックに依存している。
本稿では,最適確率過程の同定問題としてLLM復号を書き換える原理的フレームワークであるMartingale Foresight Sampling(MFS)を紹介する。
推論パスの品質を確率過程としてモデル化することにより、Martingale理論を利用して理論的に基底化されたアルゴリズムを設計する。
我々のアプローチはヒューリスティックなメカニズムを確率論の原理に置き換える: ステップバリュエーションは道の予測可能な優位性を測定するためにDoob Decomposition Theoremから導かれる、経路選択は、最適候補の原理的プルーニングのための任意の停止理論を使い、マーティンゴール収束理論に基づく適応的な停止規則は、経路の品質が確実に収束すると探索を終了する。
6つの推論ベンチマークの実験により、MSFは最先端の手法を精度で超越し、計算効率は大幅に向上した。
コードはhttps://github.com/miraclehetech/EACL2026-Martingale-Foresight-Samplingでリリースされる。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - Zero-Order Optimization for LLM Fine-Tuning via Learnable Direction Sampling [40.94400211806987]
摂動方向のサンプリング分布を学習可能なポリシとして扱う政策駆動型ZOフレームワークを提案する。
学習したサンプリングは、品質勾配情報を改善し、$d$の収束境界への明示的な依存を緩和することを示す。
以上の結果から,適応方向サンプリングはZOの微調整を大規模に実現する上で有望な方法であることが示唆された。
論文 参考訳(メタデータ) (2026-02-14T08:01:41Z) - Lookahead Path Likelihood Optimization for Diffusion LLMs [31.01208893976334]
本稿では,下流の精度と強く相関する軌道条件付き目標であるパスログ類似度(Path LL)を導入し,非マスキング経路の原理的選択を可能にする。
推定時刻におけるPath LLの最適化のために,部分復号軌道の予測を行う効率の良い値推定器POKEを提案する。
次に、このルックアヘッド信号をモンテカルロをベースとした探索フレームワークであるPOKE-SMCに統合し、最適なアンマスクパスを動的に識別する。
論文 参考訳(メタデータ) (2026-02-03T13:12:41Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Revisiting LLM Reasoning via Information Bottleneck [57.519119962528166]
大規模言語モデル(LLM)は、最近、検証可能な報酬付き強化学習(RLVR)を通じて推論能力の顕著な進歩を示した。
本稿では,情報ボトルネック(IB)の原理に基づくLLM推論の理論的特徴について述べる。
IB対応推論最適化(IBRO)を提案する。
論文 参考訳(メタデータ) (2025-07-24T13:14:25Z) - Probabilistic Optimality for Inference-time Scaling [8.126757296203957]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立かつ同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
サンプル応答の最適数を動的に決定する実用的なアルゴリズムである OptScale を開発した。
論文 参考訳(メタデータ) (2025-06-27T16:44:11Z) - Reinforced Latent Reasoning for LLM-based Recommendation [92.56166822197919]
大きな言語モデル(LLM)は、複雑な問題解決タスクにおいて印象的な推論能力を示している。
既存の手法は通常、明示的なチェーン・オブ・シント(CoT)データによる微調整に依存している。
本研究では, 明示的なCoT推論から, コンパクトで情報密度の高い潜伏推論へ移行する代替手法について検討する。
論文 参考訳(メタデータ) (2025-05-25T11:03:45Z) - Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。
フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文 参考訳(メタデータ) (2025-05-19T11:30:41Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。