論文の概要: A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search
- arxiv url: http://arxiv.org/abs/2507.00004v2
- Date: Thu, 10 Jul 2025 17:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 14:32:08.266062
- Title: A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search
- Title(参考訳): 推論計算スケーリングの理論--直接確率的スキルサーチによる推論
- Authors: Austin R. Ellis-Mohr, Anuj K. Nayak, Lav R. Varshney,
- Abstract要約: 大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。
推論コストは、今やリソース全体の負担の重要かつ増大する要素である。
本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
- 参考スコア(独自算出の注目度): 15.387256204743407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) demand considerable computational, energy, and financial resources during both training and deployment. While scaling laws for training have guided much of the field's recent progress, inference costs now represent a significant and growing component of the overall resource burden, particularly for reasoning-focused models. Existing characterizations of compute-optimality that consider model size, dataset size, and inference tokens in isolation or in fixed combinations risk overlooking more efficient operating points. We introduce directed stochastic skill search (DS3), a general framework that represents inference as stochastic traversal over a learned skill graph. From a simplified yet expressive instantiation, we derive closed-form expressions for task success and compute cost across a wide range of inference strategies -- including chain-of-thought (CoT) and tree-of-thought (ToT) -- enabling comparative analysis as a function of task difficulty and model capability. To that end, we extend a prior first-principles tripartite graph framework of LLM training to incorporate inference, and separately bridge DS3 with empirical methods that characterize LLM scaling behavior. We theoretically recover empirically observed patterns, including: linear accuracy scaling with logarithmic compute; variation in preferred inference strategies as a function of task difficulty and model capability; emergent behavior elicited by reasoning even when performance plateaus under parameter scaling; and both best-of-N (BoN) and majority voting behavior captured within a unified analytical framework. By explicitly characterizing training-inference interdependencies, our framework deepens theoretical understanding and supports principled algorithmic design and resource allocation.
- Abstract(参考訳): 大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。
トレーニングのためのスケーリング法則は、この分野の最近の進歩の多くを導いてきたが、推論コストは、特に推論に焦点を当てたモデルにおいて、リソース全体の負担の重要かつ増大する要素となっている。
モデルサイズ、データセットサイズ、推論トークンを分離または固定された組み合わせで考慮した計算最適化の既存の特徴は、より効率的な運用ポイントを見渡すリスクである。
本稿では,学習したスキルグラフ上での確率的トラバースとして推論を表現する一般的なフレームワークである,有向確率的スキルサーチ(DS3)を紹介する。
単純化されながら表現力のあるインスタンス化から、タスク成功のためのクローズドフォーム表現と、タスクの難易度とモデル能力の関数としての比較分析を可能にする幅広い推論戦略、例えばチェーン・オブ・シント(CoT)やツリー・オブ・シント(ToT)を含む計算コストを導出する。
この目的のために, LLM 学習の先駆的な三部グラフフレームワークを拡張して推論を取り入れ, LLM スケーリングの振る舞いを特徴付ける経験的手法でDS3 を個別にブリッジする。
理論的には、対数計算による線形精度スケーリング、タスク難易度とモデル能力の関数としての好ましい推論戦略の変動、パラメータスケーリングによる性能プラトーの推論によって引き起こされる創発的行動、統合分析フレームワークでキャプチャされたベスト・オブ・N(BoN)と多数決的行動の両方を含む、経験的観察されたパターンを復元する。
トレーニング推論の相互依存性を明示的に特徴付けることにより,理論的理解を深め,アルゴリズム設計と資源配分の原則をサポートする。
関連論文リスト
- Probabilistic Optimality for Inference-time Scaling [11.92228840747636]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立して同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
このフレームワーク内では,対象性能レベルを達成するために,必要なサンプル数に基づいて理論的な下限を導出し,計算効率のスケーリングに関する第一原理的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-06-27T16:44:11Z) - Scaling over Scaling: Exploring Test-Time Scaling Plateau in Large Reasoning Models [7.2703757624760526]
大規模推論モデル(LRM)は、内部テストタイムスケーリングによる推論性能の向上能力を示した。
これらのスケーリング境界を推し進めるにつれて、現実的な限界を理解し、最適なリソース割り当てを達成することが重要な課題となります。
本稿では,テストタイムスケーリングのスケーリングプレートを調査し,TTSPM(Test-Time Scaling Performance Model)を導入する。
論文 参考訳(メタデータ) (2025-05-26T20:58:45Z) - From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling [32.72867198629561]
プレトレーニングと報奨モデルトレーニング FLOP の相互作用について検討し,PRM の効率と精度への影響を評価する。
以上の結果から,数式データセットに基づいてトレーニングしたPRMは,コード生成に適した性能を示すことがわかった。
論文 参考訳(メタデータ) (2025-05-24T12:44:15Z) - BRiTE: Bootstrapping Reinforced Thinking Process to Enhance Language Model Reasoning [78.63421517563056]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な機能を示した。
本稿では,新しいグラフィカルモデルを用いてLLM推論を定式化する統一確率的フレームワークを提案する。
本稿では,Bootstrapping Reinforced Thinking Process (BRiTE)アルゴリズムについて述べる。
論文 参考訳(メタデータ) (2025-01-31T02:39:07Z) - On Discriminative Probabilistic Modeling for Self-Supervised Representation Learning [85.75164588939185]
本研究では,(マルチモーダル)自己教師型表現学習のデータ予測タスクにおいて,連続領域における識別確率モデルについて検討する。
我々は、自己教師付き表現学習における現在のInfoNCEに基づくコントラスト損失の制限を明らかにするために一般化誤差解析を行う。
MISが要求する条件付き確率密度の和を近似する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2024-10-11T18:02:46Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - Efficient Model-Free Exploration in Low-Rank MDPs [76.87340323826945]
低ランクマルコフ決定プロセスは、関数近似を持つRLに対して単純だが表現力のあるフレームワークを提供する。
既存のアルゴリズムは、(1)計算的に抽出可能であるか、または(2)制限的な統計的仮定に依存している。
提案手法は,低ランクMPPの探索のための最初の実証可能なサンプル効率アルゴリズムである。
論文 参考訳(メタデータ) (2023-07-08T15:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。