論文の概要: ATTS: Asynchronous Test-Time Scaling via Conformal Prediction
- arxiv url: http://arxiv.org/abs/2509.15148v2
- Date: Sun, 28 Sep 2025 15:40:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.783376
- Title: ATTS: Asynchronous Test-Time Scaling via Conformal Prediction
- Title(参考訳): ATTS: コンフォーマル予測による非同期テスト時間スケーリング
- Authors: Jing Xiong, Qiujiang Chen, Fanghua Ye, Zhongwei Wan, Chuanyang Zheng, Chenyang Zhao, Hui Shen, Alexander Hanbo Li, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Lingpeng Kong, Ngai Wong,
- Abstract要約: 大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
統計的に保証された適応スケーリングフレームワークであるATTS(Asynchronous Test-Time Scaling)を紹介する。
ATTSは、テストタイムのスケーリングにおいて最大56.7倍のスピードアップと4.14倍のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 112.54016379556073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) benefit from test-time scaling but are often hampered by high inference latency. Speculative decoding is a natural way to accelerate the scaling process; however, scaling along both the parallel and sequential dimensions poses significant challenges, including substantial memory-bound execution and synchronization overhead. We introduce ATTS (Asynchronous Test-Time Scaling), a statistically guaranteed adaptive scaling framework that follows the hypothesis testing process to address these challenges. By revisiting arithmetic intensity, ATTS identifies synchronization as the primary bottleneck. It enables asynchronous inference through online calibration and proposes an ordinal classification algorithm that supports a three-stage rejection sampling pipeline, scaling along both the sequential and parallel axes. Across experiments on the MATH, AMC23, AIME24, and AIME25 datasets and across multiple draft-target model families, we show that ATTS delivers up to 56.7x speedup in test-time scaling and a 4.14x throughput improvement, while maintaining accurate control of the rejection rate, reducing latency and memory overhead, and incurring no accuracy loss. By scaling both in parallel and sequential dimensions, we enable the 1.5B/70B draft/target model combination to achieve the performance of the state-of-the-art reasoning model o3-mini (high) on the AIME dataset. We have released the code at https://github.com/menik1126/asynchronous-test-time-scaling.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、しばしば高い推論遅延によって妨げられる。
投機的復号化は、スケーリングプロセスを加速する自然な方法であるが、並列次元とシーケンシャル次元の両方のスケーリングは、メモリバウンド実行や同期オーバーヘッドなど、大きな課題を引き起こす。
ATTS(Asynchronous Test-Time Scaling)は,これらの課題に対処するための仮説テストプロセスに従う,統計的に保証された適応スケーリングフレームワークである。
算術強度を再考することにより、ATTSは同期を主要なボトルネックと認識する。
オンラインキャリブレーションによる非同期推論を可能にし,逐次軸と並列軸の両方に沿ってスケールする3段階の拒絶サンプリングパイプラインをサポートする順序分類アルゴリズムを提案する。
我々は、MATH、AMC23、AIME24、AIME25データセット、および複数のドラフトターゲットモデルファミリに関する実験を通して、ATTSが最大56.7倍の高速化と4.14倍のスループット向上を実現し、拒絶率の正確な制御を維持し、レイテンシとメモリオーバーヘッドを低減し、精度の低下を生じさせないことを示した。
並列次元とシーケンシャル次元の両方をスケールすることにより、1.5B/70Bのドラフト/ターゲットモデルの組み合わせで、AIMEデータセット上の最先端の推論モデルo3-mini(high)の性能を実現できる。
コードをhttps://github.com/menik1126/asynchronous-test-time-scalingでリリースしました。
関連論文リスト
- Tail-Aware Post-Training Quantization for 3D Geometry Models [58.79500829118265]
ポストトレーニング量子化(PTQ)は、再トレーニングなしに効率的な推論を可能にする。
PTQは複雑な特徴分布と禁止キャリブレーションオーバーヘッドのために、3Dモデルに効果的に転送できない。
3次元幾何学学習のためのTail-Aware Post-Training Quantization PipelineであるTAPTQを提案する。
論文 参考訳(メタデータ) (2026-02-02T07:21:15Z) - Exploring Test-time Scaling via Prediction Merging on Large-Scale Recommendation [13.057539100440634]
テスト期間中に計算資源を効率的に活用し、スケールアップする方法は、まだ未定である。
DLRSにテスト時間スケーリングを適用する上で重要なポイントは、多様だが有意義なアウトプットを効果的に生成することにある。
オンラインデプロイ時の並列サーバの増加により、テスト時間のスケーリングはシームレスに加速できる。
論文 参考訳(メタデータ) (2025-12-08T15:41:10Z) - ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models [99.6720868215076]
適応並列推論のためのフレームワークThreadWeaverを紹介します。
ThreadWeaverは、同等サイズの一般的なシーケンシャル推論モデルと同等の精度を達成する。
ThreadWeaverはトークンのレイテンシの平均速度を最大1.53倍にします。
論文 参考訳(メタデータ) (2025-11-24T18:55:59Z) - AsyncSpade: Efficient Test-Time Scaling with Asynchronous Sparse Decoding [35.10915929939651]
テストタイムスケーリング(TTS)は長いチェーン・オブ・シント(CoT)を介してLCM推論を促進する
KV-cache成長は、LLMデコーディングのメモリバウンドボトルネックを増幅する。
2つのコアコンポーネント上に構築された効率的なTSのための非同期フレームワークであるAsyncSpadeを提案する。
論文 参考訳(メタデータ) (2025-10-08T19:36:11Z) - Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [51.48680261034029]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Multiverse: Your Language Models Secretly Decide How to Parallelize and Merge Generation [20.117825519637357]
並列生成が可能な新しい生成モデルであるMultiverseを導入する。
次に,データ,アルゴリズム,システムの共設計キュレーションを用いた実世界のマルチバース推論モデルを構築した。
データ作成のために,自動LLM支援パイプラインであるMultiverse Curatorを開発した。
また、並列推論をサポートするために、Multiverse Engineを実装しています。
論文 参考訳(メタデータ) (2025-06-11T17:59:23Z) - Adaptive Inference-Time Scaling via Cyclic Diffusion Search [61.42700671176343]
適応的推論時間スケーリング-動的に計算量を調整するという課題について紹介する。
本稿では,適応型双方向サイクル拡散(ABCD)を提案する。
ABCDは、探索深度と終了を適応的に制御しながら、双方向拡散サイクルを通じて出力を洗練する。
論文 参考訳(メタデータ) (2025-05-20T07:31:38Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。
代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
論文 参考訳(メタデータ) (2023-12-11T16:33:38Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。