論文の概要: SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
- arxiv url: http://arxiv.org/abs/2512.00466v1
- Date: Sat, 29 Nov 2025 12:38:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.251776
- Title: SCALE: Selective Resource Allocation for Overcoming Performance Bottlenecks in Mathematical Test-time Scaling
- Title(参考訳): SCALE: 数量的テストタイムスケーリングにおけるパフォーマンスのボトルネックを克服するための選択的なリソース割り当て
- Authors: Yang Xiao, Chunpu Xu, Ruifeng Yuan, Jiashuo Wang, Wenjie Li, Pengfei Liu,
- Abstract要約: テストタイムの計算スケーリングは、大規模言語モデルにおける数学的推論を強化するための強力なパラダイムとして登場した。
サブプロブレムの難易度に基づいて計算資源を選択的に割り当てるフレームワークである textbfSCALE (Selective Resource Allocation) を提案する。
- 参考スコア(独自算出の注目度): 38.48815459263562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Test-time compute scaling has emerged as a powerful paradigm for enhancing mathematical reasoning in large language models (LLMs) by allocating additional computational resources during inference. However, current methods employ uniform resource distribution across all reasoning sub-problems, creating fundamental bottlenecks where challenging sub-problems receive insufficient attention while routine operations consume disproportionate resources. This uniform allocation creates performance bottlenecks where additional computational resources yield diminishing returns. Inspired by dual-process theory, we propose \textbf{SCALE} (Selective Resource Allocation), a framework that selectively allocates computational resources based on sub-problem difficulty. SCALE operates through four stages: (1) problem decomposition into sequential reasoning sub-problems, (2) difficulty assessment of each sub-problem to distinguish between routine operations and computationally challenging sub-problems, (3) selective processing mode assignment between System 1 for simple sub-problems and System 2 for complex ones, and (4) sequential execution with context propagation. By concentrating resources on challenging sub-problems while processing routine operations efficiently, SCALE achieves substantial performance improvements with superior resource utilization. Extensive experiments demonstrate that SCALE significantly outperforms uniform scaling baselines, achieving accuracy improvements of up to 13.75 percentage points (57.50% to 71.25% on AIME25) while reducing computational costs by 33%-53%, representing a major advance in test-time scaling that addresses fundamental limitations of current approaches.
- Abstract(参考訳): テストタイムの計算スケーリングは、推論中に追加の計算資源を割り当てることで、大規模言語モデル(LLM)の数学的推論を強化するための強力なパラダイムとして登場した。
しかし、現在の手法では、全てのサブプロブレムの推論に統一的なリソース分布を採用しており、通常の操作が不均等なリソースを消費している間に、挑戦的なサブプロブレムが不十分な注意を受けるという根本的なボトルネックを生み出している。
この均一なアロケーションは、余分な計算資源が減少するリターンをもたらすパフォーマンスボトルネックを生成する。
二元プロセス理論に着想を得て,サブプロブレムの難易度に基づいて計算資源を選択的に割り当てるフレームワークである「textbf{SCALE} (Selective Resource Allocation)」を提案する。
SCALEは,(1)シーケンシャルな推論サブプロブレムへの問題分解,(2)ルーチン操作と計算的に困難なサブプロブレムを区別するための各サブプロブレムの難易度評価,(3)単純なサブプロブレムのシステム1と複雑なサブプロブレムのシステム2間の選択的な処理モード割り当て,(4)コンテキスト伝搬のシーケンシャルな実行,の4段階からなる。
ルーチン操作を効率よく処理しながら、リソースを挑戦的なサブプロブレムに集中させることにより、SCALEはリソース利用の優れたパフォーマンス向上を実現している。
大規模な実験により、SCALEは均一なスケーリングベースラインを大幅に上回り、13.75ポイント(AIME25では57.50%から71.25%)の精度向上を実現し、計算コストを33%-53%削減した。
関連論文リスト
- A Theory of Inference Compute Scaling: Reasoning through Directed Stochastic Skill Search [15.387256204743407]
大規模言語モデル(LLM)は、訓練と配備の間にかなりの計算量、エネルギー、財務資源を必要とする。
推論コストは、今やリソース全体の負担の重要かつ増大する要素である。
本稿では,学習したスキルグラフ上での推論を表現力として表現する一般的なフレームワークである有向スキルサーチ(DS3)を紹介する。
論文 参考訳(メタデータ) (2025-06-10T14:47:48Z) - ATA: Adaptive Task Allocation for Efficient Resource Management in Distributed Machine Learning [54.08906841213777]
非同期手法は分散機械学習における計算の並列化の基礎となる。
本稿では,不均一かつランダムな計算時間分布に適応するATA(Adaptive Task Allocation)を提案する。
ATAは最適なタスク割り当てを識別し、計算時間に関する事前の知識を持つメソッドと互換性があることを示す。
論文 参考訳(メタデータ) (2025-02-02T12:22:26Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Efficiently Scaling LLM Reasoning with Certaindex [25.549811985276488]
テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。
本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。
Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文 参考訳(メタデータ) (2024-12-30T14:57:53Z) - Learning for Cross-Layer Resource Allocation in MEC-Aided Cell-Free Networks [71.30914500714262]
移動エッジコンピューティング(MEC)を援用したセルフリーネットワーク上でのクロスレイヤリソース割り当ては、データレートを促進するために、送信およびコンピューティングリソースを十分に活用することができる。
深層学習の観点からMEC支援セルフリーネットワークのサブキャリア配置とビームフォーミング最適化について検討した。
論文 参考訳(メタデータ) (2024-12-21T10:18:55Z) - On-edge Multi-task Transfer Learning: Model and Practice with
Data-driven Task Allocation [20.20889051697198]
マルチタスク・トランスファー・ラーニング(MTL)におけるタスク・アロケーションは,NP完全Knapsack問題の変種であることを示す。
我々は,データ駆動型協調作業割当(DCTA)アプローチを提案し,高い計算効率でTATIMを解く。
我々のDCTAは処理時間の3.24倍を削減し、TATIMを解く際の最先端技術と比較して48.4%の省エネを図っている。
論文 参考訳(メタデータ) (2021-07-06T08:24:25Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。