Fugu-MT 論文翻訳(概要): Distributed Speculative Inference of Large Language Models is Provably Faster

論文の概要: Distributed Speculative Inference of Large Language Models is Provably Faster

arxiv url: http://arxiv.org/abs/2405.14105v3
Date: Sun, 8 Sep 2024 17:15:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 02:21:54.491655
Title: Distributed Speculative Inference of Large Language Models is Provably Faster
Title（参考訳）: 大規模言語モデルの分散投機推論は、おそらくより高速である
Authors: Nadav Timor, Jonathan Mamou, Daniel Korat, Moshe Berchansky, Oren Pereg, Moshe Wasserblat, Tomer Galanti, Michal Gordon, David Harel,
Abstract要約: 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。本稿では、投機推論(SI)や従来の自己回帰推論(非SI)よりも確実に高速な分散推論アルゴリズムである分散推論(DSI)を紹介する。 DSI が SI よりも 1.29-1.92 倍速い現実的な単一ノード設定において,本シミュレーションは既製の LLM の高速化を示す。
参考スコア（独自算出の注目度）: 11.28378710952036
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accelerating the inference of large language models (LLMs) is an important challenge in artificial intelligence. This paper introduces Distributed Speculative Inference (DSI), a novel distributed inference algorithm that is provably faster than speculative inference (SI) [leviathan2023fast,chen2023accelerating,miao2023specinfer] and traditional autoregressive inference (non-SI). Like other SI algorithms, DSI works on frozen LLMs, requiring no training or architectural modifications, and it preserves the target distribution. Prior studies on SI have demonstrated empirical speedups (compared to non-SI) but require fast and accurate drafters, which are often unavailable in practice. We identify a gap where SI can be slower than non-SI given slower or less accurate drafters. We close this gap by proving that DSI is faster than both SI and non-SI--given any drafters. DSI introduces a novel type of task parallelism called Speculation Parallelism (SP), which orchestrates target and drafter instances to overlap in time, creating a new foundational tradeoff between computational resources and latency. DSI is not only faster than SI but also supports LLMs that cannot be accelerated with SI. Our simulations show speedups of off-the-shelf LLMs in realistic single-node settings where DSI is 1.29-1.92x faster than SI.
Abstract（参考訳）: 大規模言語モデル(LLM)の推論を加速することは、人工知能において重要な課題である。本稿では,分散投機推論(DSI)を提案する。分散投機推論(DSI)は,投機推論(SI) [leviathan2023fast,chen2023accelerating,miao2023specinfer] や従来の自己回帰推論(非SI)よりも確実に高速な分散推論アルゴリズムである。他のSIアルゴリズムと同様に、DSIは凍結したLLMで動作し、トレーニングやアーキテクチャの変更を必要とせず、ターゲットの分布を保存する。 SIに関する以前の研究は、実証的なスピードアップ(非SIと比較して)を実証してきたが、高速で正確なドラフト作成が必要であり、実際は利用できないことが多い。我々は、SIが非SIよりも遅くなり得るギャップを、より遅く、より正確でない草案作成者によって特定する。 DSIがSIと非SIの両方よりも高速であることを証明することで、このギャップを埋めます。 DSIはSP(Speculation Parallelism)と呼ばれる新しいタイプのタスク並列処理を導入し、ターゲットインスタンスとドラフトインスタンスを時間的に重複させ、計算リソースとレイテンシーの間に新たな基本的なトレードオフを生み出す。 DSI は SI よりも高速であるだけでなく、SI で加速できない LLM もサポートしている。 DSI が SI よりも 1.29-1.92 倍速い現実的な単一ノード設定において,本シミュレーションは既製の LLM の高速化を示す。

関連論文リスト

$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Faster and Better LLMs via Latency-Aware Test-Time Scaling [52.10888685395448]
テスト時間スケーリング(TTS)は、推論時の言語モデル(LLM)の性能向上に有効であることが証明されている。既存の研究は、レイテンシに敏感な観点から、TSの効率性を見落としている。計算最適TSは、レイテンシが重要となるシナリオにおいて、必ずしも最低レイテンシをもたらすとは限らないことを実証する。
論文参考訳（メタデータ） (2025-05-26T07:51:30Z)
Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文参考訳（メタデータ） (2025-04-29T06:33:13Z)
Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文参考訳（メタデータ） (2025-04-15T16:00:21Z)
Pseudo-Autoregressive Neural Codec Language Models for Efficient Zero-Shot Text-to-Speech Synthesis [64.12708207721276]
本稿では,AR と NAR を統一した新しい擬似自己回帰(PAR)言語モデリング手法を提案する。 PAR 上に構築した PALLE は 2 段階の TTS システムであり, PAR を初期生成に利用し, NAR を改良する。実験では、LibriTTSでトレーニングされたPALLEが、大規模データでトレーニングされた最先端システムを上回っていることが示された。
論文参考訳（メタデータ） (2025-04-14T16:03:21Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
Not All Attention is Needed: Parameter and Computation Efficient Transfer Learning for Multi-modal Large Language Models [73.48675708831328]
MLLM(Multi-modal Large Language Models)のための新しいパラメータと計算効率のチューニング手法を提案する。 The Efficient Attention Skipping (EAS) method evaluate the attention redundancy and skips the less important MHAs to speed up inference。実験により、EASは高い性能とパラメータ効率を維持するだけでなく、推論速度を大幅に高速化することが示された。
論文参考訳（メタデータ） (2024-03-22T14:20:34Z)
A physics-informed neural network method for the approximation of slow invariant manifolds for the general class of stiff systems of ODEs [0.0]
我々は、遅い不変多様体(SIM)の発見のための物理インフォームドニューラルネットワーク(PINN)アプローチを提案する。削減順序のブラックボックスサロゲートモデルを構成する他の機械学習(ML)アプローチとは対照的に,我々のアプローチはベクトル場を高速かつ低速なコンポーネントに分解する。提案手法は,QSSA,PEA,CSPが提供する手法よりも,同等あるいは高い精度でSIM近似を提供することを示す。
論文参考訳（メタデータ） (2024-03-18T09:10:39Z)
Addressing the speed-accuracy simulation trade-off for adaptive spiking neurons [0.0]
本稿では,適応統合火災モデル(ALIF)をアルゴリズム的に再解釈する。合成ベンチマークで小さなDTを用いて50ドル以上のトレーニングスピードアップを得る。また、我々のモデルが皮質ニューロンの電気生理学的記録を迅速かつ正確に適合させる方法についても紹介する。
論文参考訳（メタデータ） (2023-11-19T18:21:45Z)
Speed-Oblivious Online Scheduling: Knowing (Precise) Speeds is not Necessary [71.46673478666631]
我々は、無関係な(異種な)マシン上でのオンラインスケジューリングを、高速な環境で検討する。透かしアルゴリズムと非透かしアルゴリズムでは,強い可視性を示す。
論文参考訳（メタデータ） (2023-02-02T10:09:23Z)
SWIFT: Rapid Decentralized Federated Learning via Wait-Free Model Communication [11.763368822546468]
SWIFTはその待ち時間構造のため,実行時間に対してより高速に収束することを示す。 SWIFTは、画像分類、ID、非IIDデータ設定の損失レベルを生成し、既存のSOTAアルゴリズムよりも50%高速である。
論文参考訳（メタデータ） (2022-10-25T14:01:21Z)
Rapid Person Re-Identification via Sub-space Consistency Regularization [51.76876061721556]
Person Re-Identification (ReID) は、歩行者を分離したカメラで識別する。実値特徴記述子を用いた既存のReID法は精度が高いが、ユークリッド距離計算が遅いため効率が低い。本稿では,ReID 処理を 0.25 倍高速化するサブスペース一貫性規則化 (SCR) アルゴリズムを提案する。
論文参考訳（メタデータ） (2022-07-13T02:44:05Z)
FastDiff: A Fast Conditional Diffusion Model for High-Quality Speech Synthesis [90.3069686272524]
本稿では,高品質音声合成のための高速条件拡散モデルであるFastDiffを提案する。 FastDiffは、長期の依存関係を効率的にモデル化するために、さまざまな受容的フィールドパターンの時間認識可能な位置可変の畳み込みを使用する。我々は、FastDiffに基づいて、高忠実度音声波形を生成するエンドツーエンドのテキスト音声合成器FastDiff-TTSを設計する。
論文参考訳（メタデータ） (2022-04-21T07:49:09Z)
An Effective Non-Autoregressive Model for Spoken Language Understanding [15.99246711701726]
本稿では,非自己回帰型音声言語理解モデルであるLayered-Refine Transformerを提案する。 SLGでは、非自己回帰モデルはトレーニング中に依存性情報を効率的に取得でき、推論に余分な時間を費やすことはない。 2つの公開データセットの実験により、我々のモデルはSLU性能を著しく改善し(総合的精度で1.5%)、推論プロセスを大幅に高速化する(10倍以上)。
論文参考訳（メタデータ） (2021-08-16T10:26:57Z)
TE-ESN: Time Encoding Echo State Network for Prediction Based on Irregularly Sampled Time Series Data [6.221375620565451]
不規則サンプリング時系列(ISTS)に基づく予測は、現実世界の応用において広く懸念されている。 Time Echo State Network(TE-ESN)という新しいモデル構造を作成します。 ISTSデータを処理できる最初のESNsベースのモデルである。 1つのカオスシステムと3つの実世界のデータセットの実験は、TE-ESNがすべてのベースラインよりも優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2021-05-02T08:00:46Z)
Adaptive Transmission Scheduling in Wireless Networks for Asynchronous Federated Learning [13.490583662839725]
無線学習ネットワーク(WDLN)における非同期フェデレーションラーニング(FL)の研究 Asynchronous Learning-Aware transmission Scheduling (ALS) 問題を定式化し、効果スコアを最大化します。 ALSアルゴリズムによって訓練されたモデルが理想的なベンチマークによってそれに近い性能を達成することをシミュレーションによって示します。
論文参考訳（メタデータ） (2021-03-02T02:28:20Z)
Resource Allocation in Multi-armed Bandit Exploration: Overcoming Sublinear Scaling with Adaptive Parallelism [107.48538091418412]
腕の引っ張りに様々な量の資源を割り当てることができる分割可能な資源にアクセス可能な場合,マルチアームの帯状地における探索について検討する。特に、分散コンピューティングリソースの割り当てに重点を置いており、プル毎により多くのリソースを割り当てることで、結果をより早く得ることができます。
論文参考訳（メタデータ） (2020-10-31T18:19:29Z)
Boosting Continuous Sign Language Recognition via Cross Modality Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。クロスモーダル拡張を用いた新しいアーキテクチャを提案する。提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文参考訳（メタデータ） (2020-10-11T15:07:50Z)
Slow and Stale Gradients Can Win the Race [39.750046808758526]
同期的に実行される分散Gradient Descent(SGD)は、最も遅いワーカー(ストラグラー)を待つとき、実行時の遅延に悩まされる。非同期手法はストラグラーを緩和するが、収束誤差に悪影響を及ぼす勾配の安定化を引き起こす。本稿では,訓練されたモデルにおけるエラーと実際のトレーニング実行時のトレードオフを解析し,非同期手法によって提供される高速化の理論的特徴について述べる。
論文参考訳（メタデータ） (2020-03-23T23:27:50Z)
Depth-Adaptive Graph Recurrent Network for Text Classification [71.20237659479703]
S-LSTM(Sentence-State LSTM)は、高効率なグラフリカレントネットワークである。そこで本研究では,S-LSTMの深度適応機構を提案する。
論文参考訳（メタデータ） (2020-02-29T03:09:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。