論文の概要: DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs
- arxiv url: http://arxiv.org/abs/2601.19904v1
- Date: Thu, 04 Dec 2025 22:43:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.12114
- Title: DABench-LLM: Standardized and In-Depth Benchmarking of Post-Moore Dataflow AI Accelerators for LLMs
- Title(参考訳): DABench-LLM:LLM用ポストムーアデータフローAIアクセラレータの標準化と詳細なベンチマーク
- Authors: Ziyu Hu, Zhiqing Zhong, Weijian Zheng, Zhijing Ye, Xuwei Tan, Xueru Zhang, Zheng Xie, Rajkumar Kettimuthu, Xiaodong Yu,
- Abstract要約: データフローベースのアクセラレータ上で,大規模言語モデルを評価するためのベンチマークフレームワークであるDABench-LLMを紹介する。
我々は,3つのコモディティデータフローアクセラレータ,Cerebras WSE-2,SambaNova RDU,Graphcore IPU上でDABench-LLMを検証する。
- 参考スコア(独自算出の注目度): 18.46752801066992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The exponential growth of large language models has outpaced the capabilities of traditional CPU and GPU architectures due to the slowdown of Moore's Law. Dataflow AI accelerators present a promising alternative; however, there remains a lack of in-depth performance analysis and standardized benchmarking methodologies for LLM training. We introduce DABench-LLM, the first benchmarking framework designed for evaluating LLM workloads on dataflow-based accelerators. By combining intra-chip performance profiling and inter-chip scalability analysis, DABench-LLM enables comprehensive evaluation across key metrics such as resource allocation, load balance, and resource efficiency. The framework helps researchers rapidly gain insights into underlying hardware and system behaviors, and provides guidance for performance optimizations. We validate DABench-LLM on three commodity dataflow accelerators, Cerebras WSE-2, SambaNova RDU, and Graphcore IPU. Our framework reveals performance bottlenecks and provides specific optimization strategies, demonstrating its generality and effectiveness across a diverse range of dataflow-based AI hardware platforms.
- Abstract(参考訳): 大規模言語モデルの指数関数的成長は、ムーアの法則の減速により、従来のCPUとGPUアーキテクチャの能力を上回っている。
Dataflow AIアクセラレーターは有望な代替手段を提供するが、LLMトレーニングの詳細なパフォーマンス分析と標準化されたベンチマーク方法論がまだ不足している。
DABench-LLMは,データフローベースのアクセラレータ上でLLMワークロードを評価するために設計された,最初のベンチマークフレームワークである。
チップ内パフォーマンスプロファイリングとチップ間スケーラビリティ分析を組み合わせることで、DABench-LLMはリソース割り当て、ロードバランシング、リソース効率といった重要な指標を総合的に評価することができる。
このフレームワークは、研究者が基盤となるハードウェアやシステムの振る舞いに関する洞察を素早く得るのを助け、パフォーマンス最適化のためのガイダンスを提供する。
我々は,3つのコモディティデータフローアクセラレータ,Cerebras WSE-2,SambaNova RDU,Graphcore IPU上でDABench-LLMを検証する。
我々のフレームワークは、パフォーマンスのボトルネックを明らかにし、その汎用性と、さまざまなデータフローベースのAIハードウェアプラットフォームにおける有効性を示す、特定の最適化戦略を提供します。
関連論文リスト
- Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - MemoryBench: A Benchmark for Memory and Continual Learning in LLM Systems [29.473672174276743]
LLMsysの継続的な学習能力を評価するために,ユーザフィードバックシミュレーションフレームワークとベンチマークを提案する。
実験により、最先端のベースラインの有効性と効率は、満足には程遠いことが示された。
論文 参考訳(メタデータ) (2025-10-20T08:16:12Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Framing AI System Benchmarking as a Learning Task: FlexBench and the Open MLPerf Dataset [0.0]
LLMerfのような既存のAIシステムベンチマークは、急速に進化するAIの状況に追随するのに苦労することが多く、AIシステムのインフォメーション、最適化、共同設計決定をサポートすることが難しい。
モデルはさまざまなデータセット、ソフトウェア、ハードウェアにわたって継続的に評価され、最適化され、精度、レイテンシ、スループット、エネルギー消費、コストといった重要な指標を使用する。
論文 参考訳(メタデータ) (2025-09-14T20:02:15Z) - Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Fake Runs, Real Fixes -- Analyzing xPU Performance Through Simulation [4.573673188291683]
機械コードレベルでMLモデルを分析するための詳細な方法論であるxPU-Sharkを提案する。
xPU-Sharkは、アクセラレータ上で動作する運用デプロイメントのトレースをキャプチャして、修正されたマイクロアーキテクチャシミュレータで再生する。
共通通信集合を最大15%まで最適化し、トークン生成遅延を最大4.1%削減する。
論文 参考訳(メタデータ) (2025-03-18T23:15:02Z) - EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。
その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文 参考訳(メタデータ) (2024-10-16T05:17:49Z) - StreamBench: Towards Benchmarking Continuous Improvement of Language Agents [63.54557575233165]
大規模言語モデル(LLM)エージェントは、経験から自分自身を改善することができる。
本稿では,LLMエージェントの入力フィードバックシーケンスに対する継続的な改善を評価するためのベンチマークであるStreamBenchを紹介する。
我々の研究は、LLMの効果的なオンライン学習戦略開発への一歩として役立ち、ストリーミングシナリオにおけるより適応的なAIシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-13T02:08:28Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。