Fugu-MT 論文翻訳(概要): BASS: Batched Attention-optimized Speculative Sampling

論文の概要: BASS: Batched Attention-optimized Speculative Sampling

arxiv url: http://arxiv.org/abs/2404.15778v1
Date: Wed, 24 Apr 2024 09:57:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-26 19:30:27.581495
Title: BASS: Batched Attention-optimized Speculative Sampling
Title（参考訳）: BASS: 意図を最適化した投機サンプリング
Authors: Haifeng Qian, Sujan Kumar Gonugondla, Sungsoo Ha, Mingyue Shang, Sanjay Krishna Gouda, Ramesh Nallapati, Sudipta Sengupta, Xiaofei Ma, Anoop Deoras,
Abstract要約: 投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。本稿では,バッチ化された投機的復号化システムについて述べる。私たちのシステムは、HumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができ、単一シーケンスの投機的デコーディングで実現可能なものよりもはるかに多い。
参考スコア（独自算出の注目度）: 25.716774131268753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speculative decoding has emerged as a powerful method to improve latency and throughput in hosting large language models. However, most existing implementations focus on generating a single sequence. Real-world generative AI applications often require multiple responses and how to perform speculative decoding in a batched setting while preserving its latency benefits poses non-trivial challenges. This paper describes a system of batched speculative decoding that sets a new state of the art in multi-sequence generation latency and that demonstrates superior GPU utilization as well as quality of generations within a time budget. For example, for a 7.8B-size model on a single A100 GPU and with a batch size of 8, each sequence is generated at an average speed of 5.8ms per token, the overall throughput being 1.1K tokens per second. These results represent state-of-the-art latency and a 2.15X speed-up over optimized regular decoding. Within a time budget that regular decoding does not finish, our system is able to generate sequences with HumanEval Pass@First of 43% and Pass@All of 61%, far exceeding what's feasible with single-sequence speculative decoding. Our peak GPU utilization during decoding reaches as high as 15.8%, more than 3X the highest of that of regular decoding and around 10X of single-sequence speculative decoding.
Abstract（参考訳）: 投機的復号化は、大規模言語モデルをホストする際のレイテンシとスループットを改善する強力な方法として登場した。しかし、既存の実装のほとんどは単一のシーケンスを生成することに重点を置いている。実世界の生成AIアプリケーションは、しばしば複数の応答と、バッチ環境で投機的復号化を実行する方法を必要とする。本稿では、バッチ化された投機的復号化システムについて述べる。これは、マルチシーケンス生成遅延において新しい最先端の状態を設定し、GPUの優れた利用と、時間予算内での世代品質を示す。例えば、1つのA100 GPU上の7.8Bサイズモデルとバッチサイズが8の場合、各シーケンスは平均速度5.8msで生成され、全体のスループットは毎秒1.1Kである。これらの結果は、最先端のレイテンシと、最適化された正規デコードよりも2.15倍のスピードアップを示している。通常のデコーディングが終わらない時間予算の中で、我々のシステムはHumanEval Pass@Firstの43%とPass@Allの61%のシーケンスを生成することができる。復号化のピークGPU利用率は15.8%、正規復号化の最高値の3倍、単列投機復号化の約10倍に達する。

関連論文リスト

dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文参考訳（メタデータ） (2025-09-30T16:32:52Z)
OverFill: Two-Stage Models for Efficient Language Model Decoding [68.68408155020568]
大規模言語モデル(LLM)は多様なタスクにまたがって優れていますが、高い推論コストのため、デプロイメント上の大きな課題に直面しています。プリフィルとデコードステージを分離し,精度と効率のトレードオフを最適化するOverFillを提案する。我々の3B-to-1B OverFill構成は1Bプルーニングモデルを83.2%上回り、8B-to-3B構成は3Bプルーニングモデルを79.2%上回った。
論文参考訳（メタデータ） (2025-08-11T20:07:34Z)
Efficient Speculative Decoding for Llama at Scale: Challenges and Solutions [37.26410494260306]
Llamaモデルの生産規模で投機的復号化を実現するために実装したトレーニングおよび推論最適化手法について述べる。これらの変更により、Llamaモデルに対する最先端の推論レイテンシが新たに実現される。例えば、Llama4 Maverickは8つのNVIDIA H100 GPU上でトークンあたり約4ミリ秒でデコードする(バッチサイズは1である)。
論文参考訳（メタデータ） (2025-08-11T17:11:26Z)
Whisfusion: Parallel ASR Decoding via a Diffusion Transformer [7.327454599174306]
Whisfusionは、トレーニング済みのWhisperエンコーダをテキスト拡散デコーダで融合するフレームワークである。パラメータ効率細調整(PEFT)によって訓練された軽量なクロスアテンションアダプタは、2つのモードをブリッジする。 LibriSpeech (960h)のみに微調整されたWhisfusionは、Whisper-tinyよりも低いWERを実現し、短いオーディオに匹敵するレイテンシを提供する。
論文参考訳（メタデータ） (2025-08-09T17:20:54Z)
AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。 AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文参考訳（メタデータ） (2025-06-04T08:32:30Z)
REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders [52.61034140869803]
Region Network (REN) は、ポイントプロンプトを用いて領域ベースの画像表現を生成するための高速で効果的なモデルである。 RENは、リージョントークンを直接生成する軽量モジュールを使用して、このボトルネックをバイパスする。これはいくつかのクロスアテンションブロックを使用し、ポイントプロンプトをクエリとして取り、パッチベースのイメージエンコーダからキーと値として機能してリージョントークンを生成する。
論文参考訳（メタデータ） (2025-05-23T17:59:33Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)
DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T08:27:48Z)
From Hours to Minutes: Lossless Acceleration of Ultra Long Sequence Generation up to 100K Tokens [26.79477846621806]
TOKENSWIFTは超長周期の生成過程を大幅に高速化するように設計されている。様々なスケールのモデルで3倍以上のスピードアップを達成する。これは超長いシーケンス生成のための数時間の節約を意味する。
論文参考訳（メタデータ） (2025-02-26T07:10:08Z)
AMUSD: Asynchronous Multi-Device Speculative Decoding for LLM Acceleration [0.3626013617212667]
本稿では,AMUSD (Asynchronous Multi-device Speculative Decoding) を導入し,ドラフトを分離し,フェーズを検証することによって生成を高速化するシステムを提案する。 AMUSDは、1つのモデル(ドラフトまたは検証)のみが一度にトークン生成を行う従来の投機復号法とは異なり、どちらのモデルも別々のデバイス上で独立して予測を行うことができる。我々は、複数のデータセットに対するアプローチを評価し、AMUSDが投機的復号化よりも平均29%改善し、従来の自己回帰復号化よりも1.96$times$スピードアップを達成したことを示す。
論文参考訳（メタデータ） (2024-10-22T19:15:35Z)
Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文参考訳（メタデータ） (2024-10-02T16:05:27Z)
MagicDec: Breaking the Latency-Throughput Tradeoff for Long Context Generation with Speculative Decoding [11.030853173032199]
LLM(Large Language Models)は、長いコンテキストのアプリケーションで広く使われるようになった。投機的復号法(SD)は、性能を犠牲にすることなくレイテンシを低減する手法として広く用いられている。我々は,中間列から長列の高スループット推論方式であっても,驚くほどSDが高速化可能であることを示す。
論文参考訳（メタデータ） (2024-08-20T17:57:31Z)
Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference [19.167604927651073]
LLM(Large Language Models)の自動回帰デコーディングは、ハードウェアの性能に大きなオーバーヘッドをもたらす。トレーニング可能なパラメータを0.0002$%しか必要とせず,A100-40GBのGPUをたった16時間で効率的にトレーニングできる並列プロンプトデコーディングを提案する。我々のアプローチでは、最大2.49$times$ スピードアップを示し、最小のメモリオーバーヘッドは0.0004$%である。
論文参考訳（メタデータ） (2024-05-28T22:19:30Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
Bifurcated Attention: Accelerating Massively Parallel Decoding with Shared Prefixes in LLMs [39.16152482491236]
Bifurcated attentionは、共有コンテキストバッチデコードシナリオにおける言語モデル推論を強化するために設計された手法である。提案手法は,高バッチサイズおよび拡張コンテキスト長のレイテンシに寄与する重要な要因である冗長メモリIOコストの課題に対処する。
論文参考訳（メタデータ） (2024-03-13T16:30:57Z)
Lossless Acceleration for Seq2seq Generation with Aggressive Decoding [74.12096349944497]
アグレッシブデコーディング(Aggressive Decoding)は、セq2seq生成のための新しいデコーディングアルゴリズムである。提案手法は, 自己回帰復号法と比較し, 同一(あるいは良好な)生成を実現することを目的としている。複数のSeq2seqタスクにおいて、GPU上で最も人気のある6層トランスフォーマーモデル上で、攻撃的デコーディングをテストする。
論文参考訳（メタデータ） (2022-05-20T17:59:00Z)
Speculative Decoding: Exploiting Speculative Execution for Accelerating Seq2seq Generation [80.2267931231335]
本稿では,自己回帰(AR)デコーディングを高速化する投機的実行のアイデアを活用するための投機的デコーディング(SpecDec)を提案する。 SpecDecには2つのイノベーションがある。Spec-Drafter - 効率的なドラフトのために特別に最適化された独立モデル、Spec-Verification - ドラフトされたトークンを効率的に検証するための信頼性の高い方法である。
論文参考訳（メタデータ） (2022-03-30T17:27:09Z)
OMPQ: Orthogonal Mixed Precision Quantization [64.59700856607017]
混合精度量子化は、ハードウェアの多重ビット幅演算を利用して、ネットワーク量子化の全ポテンシャルを解き放つ。本稿では、整数プログラミングの損失と高い相関関係にあるネットワーク性の概念であるプロキシメトリックを最適化することを提案する。このアプローチは、量子化精度にほとんど妥協することなく、検索時間と必要なデータ量を桁違いに削減する。
論文参考訳（メタデータ） (2021-09-16T10:59:33Z)
Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文参考訳（メタデータ） (2020-04-02T00:43:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。