論文の概要: A1: Asynchronous Test-Time Scaling via Conformal Prediction
- arxiv url: http://arxiv.org/abs/2509.15148v1
- Date: Thu, 18 Sep 2025 16:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.347625
- Title: A1: Asynchronous Test-Time Scaling via Conformal Prediction
- Title(参考訳): A1: コンフォーマル予測による非同期テスト時間スケーリング
- Authors: Jing Xiong, Qiujiang Chen, Fanghua Ye, Zhongwei Wan, Chuanyang Zheng, Chenyang Zhao, Hui Shen, Alexander Hanbo Li, Chaofan Tao, Haochen Tan, Haoli Bai, Lifeng Shang, Lingpeng Kong, Ngai Wong,
- Abstract要約: 大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、既存のメソッドは重大な課題に直面している。
A1(非同期テスト時間スケーリング)は統計的に保証された適応推論フレームワークで、これらの課題に対処します。
A1は56.7倍のスピードアップと4.14倍のスループット向上を実現している。
- 参考スコア(独自算出の注目度): 112.54016379556073
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) benefit from test-time scaling, but existing methods face significant challenges, including severe synchronization overhead, memory bottlenecks, and latency, especially during speculative decoding with long reasoning chains. We introduce A1 (Asynchronous Test-Time Scaling), a statistically guaranteed adaptive inference framework that addresses these challenges. A1 refines arithmetic intensity to identify synchronization as the dominant bottleneck, proposes an online calibration strategy to enable asynchronous inference, and designs a three-stage rejection sampling pipeline that supports both sequential and parallel scaling. Through experiments on the MATH, AMC23, AIME24, and AIME25 datasets, across various draft-target model families, we demonstrate that A1 achieves a remarkable 56.7x speedup in test-time scaling and a 4.14x improvement in throughput, all while maintaining accurate rejection-rate control, reducing latency and memory overhead, and no accuracy loss compared to using target model scaling alone. These results position A1 as an efficient and principled solution for scalable LLM inference. We have released the code at https://github.com/menik1126/asynchronous-test-time-scaling.
- Abstract(参考訳): 大規模な言語モデル(LLM)は、テスト時のスケーリングの恩恵を受けるが、既存のメソッドは、特に長い推論チェーンを持つ投機的デコーディングにおいて、厳しい同期オーバーヘッド、メモリボトルネック、レイテンシといった重大な課題に直面している。
A1(非同期テスト時間スケーリング)は統計的に保証された適応推論フレームワークで、これらの課題に対処します。
A1は算術強度を改良し、同期を主要なボトルネックとして識別し、非同期推論を可能にするオンラインキャリブレーション戦略を提案し、逐次スケーリングと並列スケーリングの両方をサポートする3段階のリジェクションサンプリングパイプラインを設計する。
MATH, AMC23, AIME24, AIME25データセットに対する実験により, A1はテスト時間スケーリングにおいて56.7倍の高速化を実現し,スループットは4.14倍向上した。
これらの結果は、A1 をスケーラブル LLM 推論のための効率的で原則化された解として位置づけている。
コードをhttps://github.com/menik1126/asynchronous-test-time-scalingでリリースしました。
関連論文リスト
- Time Is a Feature: Exploiting Temporal Dynamics in Diffusion Language Models [51.48680261034029]
拡散大言語モデル (dLLMs) は反復的 denoising を通じてテキストを生成する。
現在のデコード戦略は、最終的な出力に有利なリッチな中間予測を捨てている。
時間的整合性を利用する2つの相補的手法を導入する。
論文 参考訳(メタデータ) (2025-08-12T17:59:57Z) - $\texttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。
我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文 参考訳(メタデータ) (2025-06-15T05:50:05Z) - Revisiting the Test-Time Scaling of o1-like Models: Do they Truly Possess Test-Time Scaling Capabilities? [61.85289698610747]
我々は,o1-like large language model (LLMs) が本当にテスト時間スケーリング機能を持っているか検討した。
これらのo1型モデルの長いCoTは、常に精度を向上しないことがわかった。
並列スケーリング戦略とCoT長特性を組み合わせた手法であるShortest Majority Voteを提案する。
論文 参考訳(メタデータ) (2025-02-17T07:21:11Z) - Asynchronous Distributed Optimization with Delay-free Parameters [9.062164411594175]
本稿では,2つの分散アルゴリズム, Prox-DGD と DGD-ATC の非同期バージョンを開発し,無方向性ネットワーク上でのコンセンサス最適化問題を解く。
代替アルゴリズムとは対照的に,我々のアルゴリズムは,遅延に依存しないステップサイズを用いて,同期アルゴリズムの固定点集合に収束することができる。
論文 参考訳(メタデータ) (2023-12-11T16:33:38Z) - Robust Fully-Asynchronous Methods for Distributed Training over General Architecture [11.480605289411807]
分散機械学習問題における完全な同期は、レイテンシ、パッケージの損失、ストラグラーの存在のため、非効率であり、不可能である。
本稿では,R-FAST (Fully-Asynchronous Gradient Tracking Method) を提案する。
論文 参考訳(メタデータ) (2023-07-21T14:36:40Z) - AuxAdapt: Stable and Efficient Test-Time Adaptation for Temporally
Consistent Video Semantic Segmentation [81.87943324048756]
ビデオセグメンテーションでは、フレーム間で時間的に一貫した結果を生成することは、フレームワイドの精度を達成するのと同じくらい重要である。
既存の方法は、時間的整合性を達成するために、テストデータによる光フローの正則化や微調整に依存している。
本稿では、ほとんどのニューラルネットワークモデルの時間的一貫性を改善するために、効率的で直感的で教師なしのオンライン適応手法であるAuxAdaptを提案する。
論文 参考訳(メタデータ) (2021-10-24T07:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。