論文の概要: Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study
- arxiv url: http://arxiv.org/abs/2603.10031v1
- Date: Fri, 27 Feb 2026 13:21:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.587073
- Title: Architecture-Aware LLM Inference Optimization on AMD Instinct GPUs: A Comprehensive Benchmark and Deployment Study
- Title(参考訳): AMD本能GPUにおけるアーキテクチャを考慮したLLM推論最適化:総合ベンチマークと展開研究
- Authors: Athos Georgiou,
- Abstract要約: AMD Instinct MI325X GPUにおけるLCM推定のクロスアーキテクチャ評価
3つのアーキテクチャファミリにまたがる235Bから1兆のパラメータにまたがる4つのモデルのベンチマーク。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a cross-architecture evaluation of production LLM inference on AMD Instinct MI325X GPUs, benchmarking four models spanning 235B to 1 trillion parameters across three architectural families (MoE+MLA, Dense+GQA, MoE+GQA) on an 8-GPU cluster with 2TB aggregate HBM3e using vLLM v0.14.1. Our results demonstrate that architecture-aware optimization is essential: MLA models require block size 1 and cannot use KV cache offloading, while GQA models benefit from both. The AMD AITER runtime is required for competitive MLA inference throughput and must be selectively disabled for architectures with incompatible attention head configurations. A controlled AITER ablation on Llama-3.1-405B (n=5 per condition) reveals a modest 3-5% throughput benefit at high concurrency but 2-16x higher measurement variability, confirming that AITER's large speedups target MoE/MLA kernels specifically. Under text-only workloads, Llama-405B and DeepSeek V3.2 achieve comparable peak throughput (15,944 and 15,343 tok/s) despite an order-of-magnitude difference in active parameters. Under vision workloads, Qwen3-VL-235B reaches 47,873 tok/s, 6.5x higher than Kimi-K2.5 (7,327 tok/s). Active parameter count per token is associated with inference throughput, though confounded by differences in quantization, AITER acceleration, and tensor parallelism. All four models exhibit a common throughput saturation point consistent with a memory-bandwidth bottleneck (~500 concurrent for short sequences, ~100-200 for longer sequences). All models maintain 100% HTTP-level success rates through 1,000 concurrent users, processing 18.9 million tokens across 17,406 requests without failures.
- Abstract(参考訳): AMD Instinct MI325X GPU上でのLCM推論のクロスアーキテクチャ評価を行い、vLLM v0.14.1を用いて2TBのHBM3eを持つ8GPUクラスタ上で、3つのアーキテクチャファミリ(MoE+MLA, Dense+GQA, MoE+GQA)にまたがる235Bから1兆パラメータの4つのモデルをベンチマークする。
MLAモデルはブロックサイズ1を必要とし、KVキャッシュオフロードは使用できないが、GQAモデルは両方の利点がある。
AMD AITERランタイムは競合するMLA推論スループットのために必要であり、非互換なアテンションヘッド構成を持つアーキテクチャでは選択的に無効化されなければならない。
Llama-3.1-405B (n=5) 上の制御されたAITERアブレーションは、高並列性ではわずかに3-5%のスループットの利点を示すが、2-16倍の高い測定変数を示し、AITERの大きなスピードアップが特にMoE/MLAカーネルをターゲットにしていることを確認する。
テキストのみのワークロードでは、Llama-405B と DeepSeek V3.2 は、アクティブパラメータのオーダー・オブ・マグニチュードの違いにもかかわらず、ピークスループット(15,944 と 15,343 トン/s)を達成している。
視覚負荷下では、Qwen3-VL-235Bはキミ-K2.5 (7,327 tok/s)より47,873 tok/s、6.5倍高い。
トークン毎のアクティブパラメータカウントは、量子化、AITERアクセラレーション、テンソル並列性の違いによって構成されているが、推論スループットに関連付けられている。
4つのモデルは全て、メモリバンド幅のボトルネック(短いシーケンスでは500、長いシーケンスでは100-200)と一致する共通のスループット飽和点を示す。
すべてのモデルは、1,000人の同時ユーザを通じて100%のHTTPレベルの成功率を維持し、17,406件の要求に対して189万のトークンを処理する。
関連論文リスト
- Native LLM and MLLM Inference at Scale on Apple Silicon [0.8122270502556375]
MLX をネイティブに構築した Apple Silicon 上で,効率的な LLM と MLLM 推論のためのフレームワーク vllm-mlx を提案する。
テキストモデルでは、Qwen3-0.6BからNemotron-30Bまでの範囲で、ラマよりも21%から87%高いスループットを達成する。
マルチモーダルモデルでは,入力形式によらず,同一画像をコンテンツハッシュで識別することで,冗長な視覚符号化を不要とするコンテンツベースキャッシングを導入する。
論文 参考訳(メタデータ) (2026-01-27T03:11:02Z) - Chronicals: A High-Performance Framework for LLM Fine-Tuning with 3.51x Speedup over Unsloth [0.0]
Unsloth上で3.5倍のスピードアップを実現したオープンソースのトレーニングフレームワークであるCentralsを紹介します。
オンラインのソフトマックスの正しさ、FlashAttention IO complexity O(N2 d2 M-1)、LoRA+学習速度勾配近似など、完全な数学的基礎を提供する。
論文 参考訳(メタデータ) (2026-01-06T00:00:55Z) - dInfer: An Efficient Inference Framework for Diffusion Language Models [54.80918957287927]
拡散に基づく大規模言語モデル (dLLM) は自己回帰(AR) LLM に代わる有望な代替品として登場した。
本稿では、dLLM推論のための効率的かつ効率的なフレームワークであるdInferについて述べる。
論文 参考訳(メタデータ) (2025-10-09T16:19:42Z) - Puzzle: Distillation-Based NAS for Inference-Optimized LLMs [17.72841008597783]
大きな言語モデル(LLM)は優れた能力を提供するが、高い推論コストは広く採用を制限する。
本稿では,LLMの推論を高速化するハードウェア対応フレームワークであるPuzzleについて述べる。
我々は、Llama-3.1-Nemotron-51B-Instruct (Nemotron-51B)とLlama-3.3-Nemotron-49Bという2つの公開モデルを通して、我々のフレームワークの影響を実証する。
論文 参考訳(メタデータ) (2024-11-28T13:45:42Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - QMoE: Practical Sub-1-Bit Compression of Trillion-Parameter Models [64.34635279436054]
Mixture-of-Experts (MoE)アーキテクチャは、スパースルーティングによる大規模言語モデル(LLM)の高推論コストに対する一般的な解決策を提供する。
本稿では,QMoEと呼ばれる新しい圧縮実行フレームワークの形で,このメモリ問題に対する解決策を提案する。
論文 参考訳(メタデータ) (2023-10-25T17:24:53Z) - QLoRA: Efficient Finetuning of Quantized LLMs [66.58009990713134]
我々は,48GBのGPU上で65Bパラメータモデルを微調整するのに十分なメモリ使用量を削減する,効率的な微調整手法QLoRAを提案する。
QLoRAは凍結した4ビット量子化事前学習言語モデルを通して低ランクアダプタ(LoRA)に逆伝搬する
最高のモデルファミリであるGuanacoは、Vicunaベンチマークでリリースされたすべてのモデルより優れています。
論文 参考訳(メタデータ) (2023-05-23T17:50:33Z) - AdaMTL: Adaptive Input-dependent Inference for Efficient Multi-Task
Learning [1.4963011898406864]
マルチタスク学習モデルのためのタスク認識推論ポリシーを学習する適応型フレームワークであるAdaMTLを紹介する。
AdaMTLは計算複雑性を43%削減し、シングルタスクモデルと比較して精度を1.32%改善した。
Vuzix M4000 スマートグラス上に展開すると、AdaMTL は推論遅延とエネルギー消費をそれぞれ 21.8% と 37.5% に削減する。
論文 参考訳(メタデータ) (2023-04-17T20:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。