Fugu-MT 論文翻訳(概要): Faster and Better LLMs via Latency-Aware Test-Time Scaling

論文の概要: Faster and Better LLMs via Latency-Aware Test-Time Scaling

arxiv url: http://arxiv.org/abs/2505.19634v2
Date: Tue, 27 May 2025 08:38:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-28 14:37:20.166181
Title: Faster and Better LLMs via Latency-Aware Test-Time Scaling
Title（参考訳）: レイテンシを意識したテストタイムスケーリングによるLCMの高速化と改善
Authors: Zili Wang, Tianyu Zhang, Haoli Bai, Lu Hou, Xianzhi Yu, Wulong Liu, Shiming Xiang, Lei Zhu,
Abstract要約: テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
参考スコア（独自算出の注目度）: 52.10888685395448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Test-Time Scaling (TTS) has proven effective in improving the performance of Large Language Models (LLMs) during inference. However, existing research has overlooked the efficiency of TTS from a latency-sensitive perspective. Through a latency-aware evaluation of representative TTS methods, we demonstrate that a compute-optimal TTS does not always result in the lowest latency in scenarios where latency is critical. To address this gap and achieve latency-optimal TTS, we propose two key approaches by optimizing the concurrency configurations: (1) branch-wise parallelism, which leverages multiple concurrent inference branches, and (2) sequence-wise parallelism, enabled by speculative decoding. By integrating these two approaches and allocating computational resources properly to each, our latency-optimal TTS enables a 32B model to reach 82.3% accuracy on MATH-500 within 1 minute and a smaller 3B model to achieve 72.4% within 10 seconds. Our work emphasizes the importance of latency-aware TTS and demonstrates its ability to deliver both speed and accuracy in latency-sensitive scenarios.
Abstract（参考訳）: テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。しかし、既存の研究はレイテンシに敏感な観点からTSの効率性を見落としている。代表的TS手法の遅延認識評価を通じて、計算最適TSは、レイテンシが重要となる場合において、必ずしも低レイテンシをもたらすとは限らないことを実証する。このギャップに対処し、遅延最適TSを実現するために、(1)複数の並列推論ブランチを利用するブランチワイド並列化と(2)投機的復号化によって実現されるシーケンスワイド並列化の2つの主要な手法を提案する。これら2つのアプローチを統合し,それぞれに適切な計算資源を割り当てることで,32Bモデルを1分以内のMATH-500で82.3%,10秒以内の3Bモデルを72.4%の精度で実現する。我々の研究は、レイテンシを意識したTSの重要性を強調し、レイテンシに敏感なシナリオにおいて、速度と精度の両方を提供する能力を示している。

関連論文リスト

Towards Latency-Aware 3D Streaming Perception for Autonomous Driving [25.879279738510398]
本稿では,実行遅延を考慮したオンライン評価に適した新しいベンチマークを提案する。ベンチマークに基づいて、レイテンシを意識した3Dストリーミングパーセプションフレームワークを構築します。提案手法は,オフライン評価の80%と密に一致したオンライン性能を実現するため,様々な遅延レベルの一般化を示す。
論文参考訳（メタデータ） (2025-04-27T05:49:52Z)
Learning Adaptive Parallel Reasoning with Language Models [70.1745752819628]
本稿では,適応並列推論(Adaptive Parallel Reasoning, APR)を提案する。 APRは、spawn()とjoin()操作を使用して適応的なマルチスレッド推論を可能にすることで、既存の推論メソッドを一般化する。鍵となる革新は、親と子の両方の推論スレッドを最適化して、事前に定義された推論構造を必要とせずにタスクの成功率を高める、エンドツーエンドの強化学習戦略である。
論文参考訳（メタデータ） (2025-04-21T22:29:02Z)
Fast T2T: Optimization Consistency Speeds Up Diffusion-Based Training-to-Testing Solving for Combinatorial Optimization [83.65278205301576]
雑音レベルから与えられたインスタンスの最適解への直接写像を学習し、最小限のショットで高品質な生成を容易にすることを提案する。これは、サンプル間の差を最小限に抑える最適化一貫性トレーニングプロトコルによって達成される。 The Traveling Salesman Problem (TSP) と Maximal Independent Set (MIS) は、ソリューションの品質と効率の両方に関して、Fast T2Tの優位性を実証している。
論文参考訳（メタデータ） (2025-02-05T07:13:43Z)
UniPTS: A Unified Framework for Proficient Post-Training Sparsity [67.16547529992928]
Post-Traiing Sparsity (PTS)は、必要な限られたデータで効率的なネットワークスパシティを追求する、新たに登場した道である。本稿では,従来のスパシティの性能をPSSの文脈に大きく変化させる3つの基本因子を変換することで,この相違を解消しようとする。我々のフレームワークはUniPTSと呼ばれ、広範囲のベンチマークで既存のPTSメソッドよりも優れていることが検証されている。
論文参考訳（メタデータ） (2024-05-29T06:53:18Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
Minimum Latency Training of Sequence Transducers for Streaming End-to-End Speech Recognition [38.28868751443619]
本稿では,シーケンストランスデューサモデルの遅延を明示的にモデル化し,遅延を低減するための新しいトレーニング手法を提案する。実験結果から,提案した最小レイテンシトレーニングにより,WER劣化率0.7%において,因果コンバータ-Tのレイテンシを220msから27msに短縮できることがわかった。
論文参考訳（メタデータ） (2022-11-04T09:19:59Z)
An Intelligent Deterministic Scheduling Method for Ultra-Low Latency Communication in Edge Enabled Industrial Internet of Things [19.277349546331557]
時間知覚ネットワーク (TSN) は, 決定論的スケジューリングによる低遅延通信を実現するために最近研究されている。非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し, 時間に敏感な流れに対する超低遅延通信を実現する。実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。
論文参考訳（メタデータ） (2022-07-17T16:52:51Z)
FastEmit: Low-latency Streaming ASR with Sequence-level Emission Regularization [78.46088089185156]
ストリーム自動音声認識(ASR)は、仮説化された単語を可能な限り迅速かつ正確に出力することを目的としている。既存のアプローチでは、シーケンストランスデューサモデルにおいて、トーケン単位またはフレーム単位の確率予測を演算することで、発光遅延をペナルティ化する。本稿では,訓練用トランスデューサモデルにおいて,シーケンス毎の確率に遅延正規化を直接適用する,FastEmitというシーケンスレベルのエミッション正規化手法を提案する。
論文参考訳（メタデータ） (2020-10-21T17:05:01Z)
Good Feature Matching: Towards Accurate, Robust VO/VSLAM with Low Latency [23.443265839365054]
最先端VO/VSLAMシステムの解析は、性能(正確性と堅牢性)と効率(レイテンシ)のバランスのギャップを露呈する本稿では,特徴量に基づくVSLAMの適用により,性能と効率のギャップを埋めることを目的としている。
論文参考訳（メタデータ） (2020-01-03T03:50:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。