論文の概要: ATTS: Asynchronous Test-Time Scaling via Conformal Prediction
- arxiv url: http://arxiv.org/abs/2509.15148v2
- Date: Sun, 28 Sep 2025 15:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.783376
- Title: ATTS: Asynchronous Test-Time Scaling via Conformal Prediction
- Title(参考訳): ATTS: コンフォーマル予測による非同期テスト時間スケーリング
- Authors: Jing Xiong, Qiujiang Chen, Fanghua Ye, Zhongwei Wan, Chuanyang Zheng, Chenyang Zhao, Hui Shen, Alexander Hanbo Li, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Lingpeng Kong, Ngai Wong,
- Abstract要約: 大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 112.54016379556073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) benefit from test-time scaling but are often hampered by high inference latency. Speculative decoding is a natural way to accelerate the scaling process; however, scaling along both the parallel and sequential dimensions poses significant challenges, including substantial memory-bound execution and synchronization overhead. We introduce ATTS (Asynchronous Test-Time Scaling), a statistically guaranteed adaptive scaling framework that follows the hypothesis testing process to address these challenges. By revisiting arithmetic intensity, ATTS identifies synchronization as the primary bottleneck. It enables asynchronous inference through online calibration and proposes an ordinal classification algorithm that supports a three-stage rejection sampling pipeline, scaling along both the sequential and parallel axes. Across experiments on the MATH, AMC23, AIME24, and AIME25 datasets and across multiple draft-target model families, we show that ATTS delivers up to 56.7x speedup in test-time scaling and a 4.14x throughput improvement, while maintaining accurate control of the rejection rate, reducing latency and memory overhead, and incurring no accuracy loss. By scaling both in parallel and sequential dimensions, we enable the 1.5B/70B draft/target model combination to achieve the performance of the state-of-the-art reasoning model o3-mini (high) on the AIME dataset. We have released the code at https://github.com/menik1126/asynchronous-test-time-scaling.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
投機的復号化は、スケーリングプロセスを加速する自然な方法であるが、並列次元とシーケンシャル次元の両方のスケーリングは、メモリバウンド実行や同期オーバーヘッドなど、大きな課題を引き起こす。
ATTS(Asynchronous Test-Time Scaling)は,これらの課題に対処するための仮説テストプロセスに従う,統計的に保証された適応スケーリングフレームワークである。
算術強度を再考することにより、ATTSは同期を主要なボトルネックと認識する。
オンラインキャリブレーションによる非同期推論を可能にし,逐次軸と並列軸の両方に沿ってスケールする3段階の拒絶サンプリングパイプラインをサポートする順序分類アルゴリズムを提案する。
我々は、MATH、AMC23、AIME24、AIME25データセット、および複数のドラフトターゲットモデルファミリに関する実験を通して、ATTSが最大56.7倍の高速化と4.14倍のスループット向上を実現し、拒絶率の正確な制御を維持し、レイテンシとメモリオーバーヘッドを低減し、精度の低下を生じさせないことを示した。
並列次元とシーケンシャル次元の両方をスケールすることにより、1.5B/70Bのドラフト/ターゲットモデルの組み合わせで、AIMEデータセット上の最先端の推論モデルo3-mini(high)の性能を実現できる。
コードをhttps://github.com/menik1126/asynchronous-test-time-scalingでリリースしました。
関連論文リスト
- Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [51.48680261034029]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。
代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
論文 参考訳(メタデータ) (2023-12-11T16:33:38Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。