論文の概要: Probabilistic Optimality for Inference-time Scaling
- arxiv url: http://arxiv.org/abs/2506.22376v1
- Date: Fri, 27 Jun 2025 16:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.29126
- Title: Probabilistic Optimality for Inference-time Scaling
- Title(参考訳): 推論時間スケーリングのための確率的最適性
- Authors: Youkang Wang, Jian Wang, Rubing Chen, Xiao-Yong Wei, Qing Li,
- Abstract要約: 大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立して同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
このフレームワーク内では,対象性能レベルを達成するために,必要なサンプル数に基づいて理論的な下限を導出し,計算効率のスケーリングに関する第一原理的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 11.92228840747636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time scaling has emerged as a powerful technique for enhancing the reasoning performance of Large Language Models (LLMs). However, existing approaches often rely on heuristic strategies for parallel sampling, lacking a principled foundation. To address this gap, we propose a probabilistic framework that formalizes the optimality of inference-time scaling under the assumption that parallel samples are independently and identically distributed (i.i.d.), and where the Best-of-N selection strategy follows a probability distribution that can be estimated. Within this framework, we derive a theoretical lower bound on the required number of samples to achieve a target performance level, providing the first principled guidance for compute-efficient scaling. Leveraging this insight, we develop \textsc{OptScale}, a practical algorithm that dynamically determines the optimal number of sampled responses. \textsc{OptScale} employs a language model-based predictor to estimate probabilistic prior parameters, enabling the decision of the minimal number of samples needed that satisfy predefined performance thresholds and confidence levels. Extensive experiments on mathematical reasoning benchmarks (including MATH-500, GSM8K, AIME, and AMC) demonstrate that \textsc{OptScale} significantly reduces sampling overhead while remaining better or on par with state-of-the-art reasoning performance. Our work offers both a theoretical foundation and a practical solution for principled inference-time scaling, addressing a critical gap in the efficient deployment of LLMs for complex reasoning.
- Abstract(参考訳): 推測時間スケーリングは,Large Language Models (LLMs) の推論性能を向上させる強力な手法として登場した。
しかし、既存のアプローチは、しばしば並列サンプリングのためのヒューリスティックな戦略に依存し、原則化された基礎を欠いている。
このギャップに対処するために、並列サンプルが独立かつ同一に分布する(d)という仮定の下で、推論時間スケーリングの最適性を形式化し、ベスト・オブ・N選択戦略が推定可能な確率分布に従う確率的フレームワークを提案する。
このフレームワーク内では,対象性能レベルを達成するために,必要なサンプル数に基づいて理論的な下限を導出し,計算効率のスケーリングに関する第一原理的なガイダンスを提供する。
この知見を生かして,サンプル応答の最適数を動的に決定する実用的なアルゴリズムであるtextsc{OptScale} を開発した。
\textsc{OptScale} は言語モデルベースの予測器を使用して確率的事前パラメータを推定し、事前定義されたパフォーマンス閾値と信頼性レベルを満たすために必要な最小限のサンプルを決定できる。
数学推論ベンチマーク(MATH-500, GSM8K, AIME, AMC など)の広範な実験により、'textsc{OptScale} はサンプリングオーバーヘッドを著しく低減し、また最先端の推論性能と同等に維持することを示した。
我々の研究は、理論的な基礎と、理論的な推論時間スケーリングの実践的な解決策の両方を提供し、複雑な推論のためのLLMの効率的なデプロイにおける重要なギャップに対処する。
関連論文リスト
- DynScaling: Efficient Verifier-free Inference Scaling via Dynamic and Integrated Sampling [20.605487145370752]
推論時間スケーリングは、テスト時間計算の増大を通じて、大きな言語モデル(LLM)の性能向上に有効であることが証明されている。
しかし、実際的な応用は、外部検証への依存や、現実的な計算制約に対する最適化の欠如によってしばしば妨げられる。
我々はDynScalingを提案し、これらの制限を2つの主要なイノベーション、すなわち並列シーケンスサンプリング戦略と帯域幅に基づく動的予算配分フレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-06-19T05:40:54Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - Bayesian Nonparametrics Meets Data-Driven Distributionally Robust Optimization [29.24821214671497]
機械学習と統計モデルのトレーニングは、しばしばデータ駆動型リスク基準の最適化を伴う。
ベイズ的非パラメトリック(ディリクレ過程)理論と、スムーズなあいまいさ-逆選好の最近の決定論的モデルを組み合わせた、新しいロバストな基準を提案する。
実用的な実装として、よく知られたディリクレプロセスの表現に基づいて、評価基準の抽出可能な近似を提案し、研究する。
論文 参考訳(メタデータ) (2024-01-28T21:19:15Z) - Federated Conditional Stochastic Optimization [110.513884892319]
条件付き最適化は、不変学習タスク、AUPRC、AMLなど、幅広い機械学習タスクで見られる。
本稿では,分散フェデレーション学習のためのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-04T01:47:37Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z) - Learning Unnormalized Statistical Models via Compositional Optimization [73.30514599338407]
実データと人工雑音のロジスティックな損失として目的を定式化することにより, ノイズコントラスト推定(NCE)を提案する。
本稿では,非正規化モデルの負の対数類似度を最適化するための直接的アプローチについて検討する。
論文 参考訳(メタデータ) (2023-06-13T01:18:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。