Fugu-MT 論文翻訳(概要): Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching

論文の概要: Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching

arxiv url: http://arxiv.org/abs/2409.01141v1
Date: Mon, 2 Sep 2024 10:21:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 07:13:03.216275
Title: Duplex: A Device for Large Language Models with Mixture of Experts, Grouped Query Attention, and Continuous Batching
Title（参考訳）: Duplex: エキスパート、グループクエリアテンション、継続的バッチを備えた大規模言語モデルのためのデバイス
Authors: Sungmin Yun, Kwanhee Kyung, Juhwan Cho, Jaewan Choi, Jongmin Kim, Byeongho Kim, Sukhan Lee, Kyomin Sohn, Jung Ho Ahn,
Abstract要約: 従来の計算装置では,MoE処理やアテンションレイヤの処理に制限がある。これらの課題に対処するために、低Op/Bに適したxPUと低Op/B操作に適したLogicPIMを提案する。
参考スコア（独自算出の注目度）: 2.863328705885669
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have emerged due to their capability to generate high-quality content across diverse contexts. To reduce their explosively increasing demands for computing resources, a mixture of experts (MoE) has emerged. The MoE layer enables exploiting a huge number of parameters with less computation. Applying state-of-the-art continuous batching increases throughput; however, it leads to frequent DRAM access in the MoE and attention layers. We observe that conventional computing devices have limitations when processing the MoE and attention layers, which dominate the total execution time and exhibit low arithmetic intensity (Op/B). Processing MoE layers only with devices targeting low-Op/B such as processing-in-memory (PIM) architectures is challenging due to the fluctuating Op/B in the MoE layer caused by continuous batching. To address these challenges, we propose Duplex, which comprises xPU tailored for high-Op/B and Logic-PIM to effectively perform low-Op/B operation within a single device. Duplex selects the most suitable processor based on the Op/B of each layer within LLMs. As the Op/B of the MoE layer is at least 1 and that of the attention layer has a value of 4-8 for grouped query attention, prior PIM architectures are not efficient, which place processing units inside DRAM dies and only target extremely low-Op/B (under one) operations. Based on recent trends, Logic-PIM adds more through-silicon vias (TSVs) to enable high-bandwidth communication between the DRAM die and the logic die and place powerful processing units on the logic die, which is best suited for handling low-Op/B operations ranging from few to a few dozens. To maximally utilize the xPU and Logic-PIM, we propose expert and attention co-processing.
Abstract（参考訳）: 大規模言語モデル(LLM)は、さまざまなコンテキストにまたがる高品質なコンテンツを生成する能力のために登場した。コンピューティングリソースの爆発的に増加する需要を減らすために、専門家の混在(MoE)が出現した。 MoE層は、少ない計算で膨大な数のパラメータを活用できる。最先端の継続的バッチ処理を適用するとスループットが向上するが、MoE層やアテンション層でのDRAMアクセスが頻繁に発生する。従来の計算装置では,MoE処理やアテンション層処理に制限があり,実行時間全体を支配し,演算強度が低い(Op/B)。 PIM(Process-in-Memory)アーキテクチャのような低Op/BをターゲットとするデバイスでのみMoE層を処理することは、連続バッチによるMoE層内のOp/Bの変動により困難である。これらの課題に対処するため,1台のデバイスで低Op/B動作を効果的に行うために,高Op/Bに適したxPUとLogic-PIMを組み合わせたDuplexを提案する。 Duplex は LLM 内の各層の Op/B に基づいて最も適切なプロセッサを選択する。 MoE層のOp/Bが少なくとも1であり、アテンション層のOp/Bがグループ化されたクエリアテンションに対して4〜8の値を持つため、以前のPIMアーキテクチャは効率的ではない。近年の傾向に基づき、Logic-PIM は DRAM ダイと論理ダイとの高帯域通信を可能にし、論理ダイに強力な処理ユニットを配置するスルー・シリコン・バイス (TSV) を追加し、数ダースから数ダースまでの低Op/B操作に最適である。本稿では,xPU と Logic-PIM を最大限に活用するために,エキスパートとアテンションの共同処理を提案する。

関連論文リスト

The New LLM Bottleneck: A Systems Perspective on Latent Attention and Mixture-of-Experts [5.10053312713569]
本稿では,近年のアーキテクチャシフト,すなわちMLA(Multi-head Latent Attention)とMixture-of-Experts(Mixture-of-Experts)が,特殊注意ハードウェアの前提に挑戦していることを論じる。次世代トランスフォーマーにおける中心的な課題は、もはや単一のメモリバウンド層を加速させることではない。代わりに、大規模モデルの多様な要求を管理するために、十分なメモリ容量、メモリ帯域幅、高帯域相互接続を備えたバランスのとれたシステムの設計に焦点を移さなければならない。
論文参考訳（メタデータ） (2025-07-21T10:18:33Z)
Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文参考訳（メタデータ） (2025-07-13T12:33:37Z)
MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文参考訳（メタデータ） (2025-06-18T19:44:46Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
D$^{2}$MoE: Dual Routing and Dynamic Scheduling for Efficient On-Device MoE-based LLM Serving [14.607254882119507]
専門家(MoE)モデルの組み合わせは、大きな言語モデル(LLM)のスパース変種である。メリットはあるものの、リソース制約のあるエッジデバイスにデプロイするにはMoEは高価すぎる。 D$2$MoEは,各専門家に最適なビット幅を動的に割り当てることで,多様なタスク要求に適合するアルゴリズム・システム協調設計フレームワークである。
論文参考訳（メタデータ） (2025-04-17T05:37:35Z)
MegaScale-Infer: Serving Mixture-of-Experts at Scale with Disaggregated Expert Parallelism [26.923312725688735]
Mixture-of-Experts (MoE)は、大規模言語モデル(LLM)をスケールし、性能を向上し、計算の複雑さを減らし、大きな可能性を誇示している。大規模MOEモデルを提供するための効率よく費用効率の良いシステムであるMegaScale-Inferを提案する。
論文参考訳（メタデータ） (2025-04-03T04:20:44Z)
Optimizing Multi-DNN Inference on Mobile Devices through Heterogeneous Processor Co-Execution [39.033040759452504]
Deep Neural Networks(DNN)は、さまざまな産業に展開され、モバイルデバイスのサポートの需要が高まっている。既存のモバイル推論フレームワークは、ハードウェアの使用を制限し、最適性能とエネルギー効率を引き起こすため、モデルごとにひとつのプロセッサに依存していることが多い。本稿では,モバイルヘテロジニアスプロセッサ上でのマルチDNN推論を最適化するためのAdvanced Multi-DNN Model Scheduling (ADMS) 戦略を提案する。
論文参考訳（メタデータ） (2025-03-27T03:03:09Z)
PowerAttention: Exponentially Scaling of Receptive Fields for Effective Sparse Attention [73.26995918610669]
大きな言語モデル(LLM)は、長いコンテキストを処理する場合の注意機構の二次的な複雑さによって、効率のボトルネックに直面します。本稿では,効果的かつ完全なコンテキスト拡張を容易にする新しいスパークアテンション設計であるPowerAttentionを紹介する。実験によると、PowerAttentionは既存の静的スパースアテンションメソッドを5sim 40%$で上回っている。
論文参考訳（メタデータ） (2025-03-05T15:24:11Z)
DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。 DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文参考訳（メタデータ） (2024-11-04T18:26:08Z)
DynaSplit: A Hardware-Software Co-Design Framework for Energy-Aware Inference on Edge [40.96858640950632]
ソフトウェアとハードウェアの両方でパラメータを動的に設定するフレームワークであるDynaSplitを提案する。実世界のテストベッド上で、人気のあるトレーニング済みNNを用いてDynaSplitを評価する。その結果,クラウドのみの計算に比べてエネルギー消費が最大で72%減少した。
論文参考訳（メタデータ） (2024-10-31T12:44:07Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,新しいパイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法に比べて,プリフィルスループットが平均21%向上していることが判明した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)
OPIMA: Optical Processing-In-Memory for Convolutional Neural Network Acceleration [5.0389804644646174]
我々は,処理インメモリ(PIM)ベースの機械学習アクセラレータであるOPIMAを紹介する。 PIMは、内部データ移動のボトルネックのため、高いスループットとエネルギー効率を達成するのに苦労している。我々は,OPIMAのスループットが2.98倍,エネルギー効率が137倍であることを示す。
論文参考訳（メタデータ） (2024-07-11T06:12:04Z)
Efficient and Economic Large Language Model Inference with Attention Offloading [11.698376311689456]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて優れたパフォーマンスを示すが、現実のサービスにおいて大きな課題をもたらす。このミスマッチは LLM の自己回帰的な性質から生じ、生成フェーズはリソース要求の異なる演算子から構成される。 LLMの効率性と費用対効果を高めるために,注意オフロードの概念を導入する。
論文参考訳（メタデータ） (2024-05-03T02:15:15Z)
HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文参考訳（メタデータ） (2024-02-14T18:04:36Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
Edge-MoE: Memory-Efficient Multi-Task Vision Transformer Architecture with Task-level Sparsity via Mixture-of-Experts [60.1586169973792]
M$3$ViTは、Mix-of-experts (MoE)を導入した最新のマルチタスクViTモデルである。 MoEは精度の向上と80%以上の削減計算を実現しているが、FPGAに効率的なデプロイを行う上での課題は残されている。 Edge-MoEと呼ばれる私たちの研究は、アーキテクチャの革新の集合を伴って、マルチタスクのViTのための最初のエンドツーエンドFPGAアクセラレータを導入するという課題を解決します。
論文参考訳（メタデータ） (2023-05-30T02:24:03Z)
M$^3$ViT: Mixture-of-Experts Vision Transformer for Efficient Multi-task Learning with Model-Accelerator Co-design [95.41238363769892]
マルチタスク学習(MTL)は、複数の学習タスクを単一のモデルにカプセル化し、それらのタスクを共同でよりよく学習できるようにする。現在のMTLレギュレータは、1つのタスクだけを実行するためにさえ、ほぼすべてのモデルを起動する必要がある。効率的なオンデバイスMTLを実現するためのモデル-アクセラレータ共設計フレームワークを提案する。
論文参考訳（メタデータ） (2022-10-26T15:40:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。