論文の概要: MarkovScale: Towards Optimal Sequential Scaling at Inference Time
- arxiv url: http://arxiv.org/abs/2602.01120v1
- Date: Sun, 01 Feb 2026 09:43:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.605062
- Title: MarkovScale: Towards Optimal Sequential Scaling at Inference Time
- Title(参考訳): MarkovScale: 推論時に最適なシーケンススケーリングを目指す
- Authors: Youkang Wang, Jian Wang, Rubing Chen, Tianyi Zeng, Xiao-Yong Wei, Qing Li,
- Abstract要約: 逐次スケーリングを2状態マルコフプロセスとしてモデル化する原理的フレームワークを提案する。
このアプローチはシーケンシャルスケーリングの基本的な性質を明らかにし、閉形式解を得る。
我々は,これらの最適性基準を適用し,理論上は精度と効率のバランスをとるシステムであるマルコフスケールを開発した。
- 参考スコア(独自算出の注目度): 11.375209834858135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sequential scaling is a prominent inference-time scaling paradigm, yet its performance improvements are typically modest and not well understood, largely due to the prevalence of heuristic, non-principled approaches that obscure clear optimality bounds. To address this, we propose a principled framework that models sequential scaling as a two-state Markov process. This approach reveals the underlying properties of sequential scaling and yields closed-form solutions for essential aspects, such as the specific conditions under which accuracy is improved and the theoretical upper, neutral, and lower performance bounds. Leveraging this formulation, we develop MarkovScale, a practical system that applies these optimality criteria to achieve a theoretically grounded balance between accuracy and efficiency. Comprehensive experiments across 3 backbone LLMs, 5 benchmarks, and over 20 configurations show that MarkovScale consistently outperforms state-of-the-art parallel and sequential scaling methods, representing a significant step toward optimal and resource-efficient inference in LLMs. The source code will be open upon acceptance at https://open-upon-acceptance.
- Abstract(参考訳): 逐次スケーリングは顕著な推論時間スケーリングのパラダイムであるが、そのパフォーマンス改善は概して控えめであり、よく理解されていない。
そこで本研究では,逐次スケーリングを2状態マルコフプロセスとしてモデル化するフレームワークを提案する。
このアプローチは、シーケンシャルスケーリングの根底にある性質を明らかにし、精度が向上する特定の条件や理論上、中立、低い性能境界といった重要な面に対して閉形式解を得る。
この定式化を生かしたMarkovScaleは,これらの最適性基準を適用して,理論上は精度と効率のバランスをとるための実用的なシステムである。
3つのバックボーンLDM、5つのベンチマーク、20以上の構成に関する総合的な実験は、MarkovScaleが常に最先端の並列およびシーケンシャルなスケーリングメソッドよりも優れており、LLMの最適かつリソース効率の推論に向けた重要なステップを示していることを示している。
ソースコードはhttps://open-upon-acceptance.comで公開される。
関連論文リスト
- Principled Algorithms for Optimizing Generalized Metrics in Binary Classification [53.604375124674796]
一般化されたメトリクスを最適化するアルゴリズムを導入し、$H$-consistency と finite-sample generalization bounds をサポートする。
提案手法は,メトリクス最適化を一般化したコスト依存学習問題として再検討する。
我々は,理論性能を保証する新しいアルゴリズムMETROを開発した。
論文 参考訳(メタデータ) (2025-12-29T01:33:42Z) - Beyond Confidence: Adaptive and Coherent Decoding for Diffusion Language Models [64.92045568376705]
コヒーレントコンテキストデコーディング(Coherent Contextual Decoding, CCD)は、2つのコアイノベーションに基づいて構築された新しい推論フレームワークである。
CCDは、歴史的文脈を活用してシーケンスコヒーレンスを高める軌道修正機構を採用している。
拡散ステップに基づく厳密なアロケーションの代わりに,各ステップのアンマスク予算を動的に調整する適応型サンプリング戦略を導入する。
論文 参考訳(メタデータ) (2025-11-26T09:49:48Z) - Probabilistic Optimality for Inference-time Scaling [8.126757296203957]
大規模言語モデル(LLM)の推論性能を向上させるための強力な手法として、推論時間スケーリングが登場した。
本稿では,並列サンプルが独立かつ同一分布であるという仮定の下で,推論時間スケーリングの最適性を定式化する確率的フレームワークを提案する。
サンプル応答の最適数を動的に決定する実用的なアルゴリズムである OptScale を開発した。
論文 参考訳(メタデータ) (2025-06-27T16:44:11Z) - Gradient Methods with Online Scaling Part I. Theoretical Foundations [20.711245845465776]
本稿では,オンラインスケールド手法(OSGM)の理論的基礎を確立する。
OSGMは、収束度から動機付けられたフィードバック関数によるステップサイズの有効性を定量化し、オンライン学習アルゴリズムを用いてステップサイズを調整する。
OSGMは、滑らかな凸問題に対する望ましい収束を保証する。1)滑らかな凸問題に対する軌道依存のグローバル収束、2)滑らかな凸問題に対する複雑性の改善、3)局所超線型収束などである。
論文 参考訳(メタデータ) (2025-05-29T04:35:21Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。