Fugu-MT 論文翻訳(概要): Glinthawk: A Two-Tiered Architecture for Offline LLM Inference

論文の概要: Glinthawk: A Two-Tiered Architecture for Offline LLM Inference

arxiv url: http://arxiv.org/abs/2501.11779v2
Date: Tue, 11 Feb 2025 17:36:32 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-12 16:10:29.544421
Title: Glinthawk: A Two-Tiered Architecture for Offline LLM Inference
Title（参考訳）: Glinthawk: オフラインLLM推論のための2階層アーキテクチャ
Authors: Pouya Hamadanian, Sadjad Fouladi,
Abstract要約: Glinthawkは、オフラインのLarge Language Model(LLM)推論のためのアーキテクチャである。スループットを5.9倍に改善し、生成コストを2.8倍に削減する。評価の結果,このアーキテクチャは性能劣化を最小限に抑えつつ,適度なネットワーク遅延を許容できることがわかった。
参考スコア（独自算出の注目度）: 2.6498598849144472
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Glinthawk, an architecture for offline Large Language Model (LLM) inference. By leveraging a two-tiered structure, Glinthawk optimizes the utilization of the high-end accelerators ("Tier 1") by offloading the attention mechanism to lower-end compute tier ("Tier 2"). This separation allows the memory demand of the attention, known as the key-value cache, to scale independently from the model weights, enabling larger batch sizes and more efficient accelerator usage. Prototyped with NVIDIA T4 GPUs and standard CPU VMs, Glinthawk improves throughput by $5.9\times$ and reduces cost of generation by $2.8\times$, compared to paged attention baselines. For long sequence lengths, it achieves $16.3\times$ throughput improvement at $2.4\times$ less cost. Our evaluation shows that this architecture can tolerate moderate network latency with minimal performance degradation, making it highly effective for latency-tolerant, throughput-focused applications such as batch processing. The prototype is publicly available at https://github.com/microsoft/glinthawk.
Abstract（参考訳）: オフラインのLarge Language Model(LLM)推論のためのアーキテクチャであるGlinthawkを紹介する。 2層構造を利用することで、Glinthawkは、注意機構をローエンドの計算層にオフロードすることで、ハイエンドアクセラレータ("Tier 1")の利用を最適化する("Tier 2")。この分離により、キーバリューキャッシュと呼ばれる注意のメモリ要求がモデル重みから独立してスケールでき、より大きなバッチサイズとより効率的なアクセラレータの使用が可能になる。 NVIDIA T4 GPUと標準CPU VMでプロトタイプされたGlinthawkは、ページ毎の注目ベースラインに比べてスループットを5.9\times$で改善し、生成コストを2.8\times$で削減する。長いシークエンスの長さでは、$16.3\times$スループットの改善を$2.4\times$コストで達成する。このアーキテクチャは、性能劣化を最小限に抑えつつ、適度なネットワーク遅延を許容し、バッチ処理のようなレイテンシに耐性のあるスループット重視のアプリケーションに非常に効果的であることを示す。プロトタイプはhttps://github.com/microsoft/glinthawk.comで公開されている。

関連論文リスト

Hardware-Efficient Attention for Fast Decoding [13.958883001629644]
Grouped Latent Attention (GLA) は、高速復号化のための低レベル最適化と組み合わせた並列対応の潜時注意法である。最適化されたGLAカーネルは、例えば投機的デコード設定で、FlashMLAよりも最大2$times$高速です。
論文参考訳（メタデータ） (2025-05-27T17:54:07Z)
SparAMX: Accelerating Compressed LLMs Token Generation on AMX-powered CPUs [5.760049762453579]
大規模な言語モデルをCPUで加速することにより、より広いAIアクセスを低コストで、消費電力で実現する。オープンソースでカスタマイズされたスパースカーネルのセットを提供し、任意のPyTorchモデルを高速化します。我々は、現在のシステム上での1.14倍のスピードアップを達成するために、非構造化空間の使用を初めて実演する。
論文参考訳（メタデータ） (2025-02-18T02:26:34Z)
Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [20.68731158617374]
Dovetailは、GPUにドラフトモデルをデプロイしてドラフトトークンを生成し、ターゲットモデルをCPU上で並列検証可能にするアプローチである。 Dovetailは3GBのVRAMを使用してLLaMA2-Chat-7Bで毎秒5.86トークンの推論速度を実現しており、CPUのみの推論よりも約2.77倍改善されている。
論文参考訳（メタデータ） (2024-12-25T15:45:18Z)
MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。 MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文参考訳（メタデータ） (2024-08-21T16:10:41Z)
Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文参考訳（メタデータ） (2024-05-17T00:52:39Z)
AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文参考訳（メタデータ） (2024-03-21T04:31:59Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design [5.962184741057505]
本稿では,メモリ効率のよい設計レベルでの計算冗長性に対処することを目的とする。より大きなストライドのパッチフィクスを使用するとメモリアクセスコストが削減されるだけでなく、競争性能も向上することがわかった。 SHViTは、最先端の速度精度トレードオフを得る単一ヘッドビジョン変換器である。
論文参考訳（メタデータ） (2024-01-29T09:12:23Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
GhostNetV2: Enhance Cheap Operation with Long-Range Attention [59.65543143580889]
ハードウェアフレンドリーなアテンション機構(DFCアテンション)を提案し,モバイルアプリケーション用の新しいGhostNetV2アーキテクチャを提案する。提案したDFCアテンションは、ハードウェア上で高速に動作できるだけでなく、長距離画素間の依存を捉えることができる完全接続層に基づいて構築されている。さらに,従来のGhostNetのボトルネックを再考し,DFCに着目した安価な操作による機能拡張を提案する。
論文参考訳（メタデータ） (2022-11-23T12:16:59Z)
Faster Attention Is What You Need: A Fast Self-Attention Neural Network Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文参考訳（メタデータ） (2022-08-15T02:47:33Z)
FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness [80.3586155104237]
FlashAttentionは、トランスフォーマーのためのIO対応の正確な注意アルゴリズムである。これにより、GPU高帯域メモリ(HBM)とGPUオンチップ間のメモリ読み込み/書き込み数を削減できる。 FlashAttentionとブロックスパース FlashAttentionは、トランスフォーマーのコンテキストを長くすることを可能にする。
論文参考訳（メタデータ） (2022-05-27T17:53:09Z)
Fast Vision Transformers with HiLo Attention [40.8842135978138]
ビジョントランスフォーマー(ViT)はコンピュータビジョンにおける最新の重要なブレークスルーを引き起こしている。 LITv2は、既存の最先端手法に対して良好に機能する、シンプルで効果的なViTである。 HiLoによってパワーアップされたLITv2は、画像分類、高密度検出、セグメンテーションを含むメインストリームの視覚タスクの強力なバックボーンとして機能する。
論文参考訳（メタデータ） (2022-05-26T08:16:14Z)
LiteTransformerSearch: Training-free On-device Search for Efficient Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文参考訳（メタデータ） (2022-03-04T02:10:43Z)
Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文参考訳（メタデータ） (2021-12-21T18:52:33Z)
EL-Attention: Memory Efficient Lossless Attention for Generation [27.59275177303199]
この問題に対処するために,メモリ効率の低い注意(ELアテンション)を提案する。キャッシュを使用する必要がなく、マルチヘッドキーと値を構築するための重い操作を避ける。要約タスクと質問生成タスクのためのTransformer, BART, GPT-2について広範な実験を行った。
論文参考訳（メタデータ） (2021-05-11T04:37:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。