論文の概要: Elk: Exploring the Efficiency of Inter-core Connected AI Chips with Deep Learning Compiler Techniques
- arxiv url: http://arxiv.org/abs/2507.11506v1
- Date: Tue, 15 Jul 2025 17:21:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.205749
- Title: Elk: Exploring the Efficiency of Inter-core Connected AI Chips with Deep Learning Compiler Techniques
- Title(参考訳): Elk: ディープラーニングコンパイラによるコア間接続型AIチップの効率性を探る
- Authors: Yiqi Liu, Yuqi Xue, Noelle Crawford, Jilong Xue, Jian Huang,
- Abstract要約: Elkは、コア間接続されたAIチップの効率を最大化するDLコンパイラフレームワークである。
グローバルに最適化された実行プランを生成し、オフチップのデータロードとオンチップ実行を最もよく重複させる。
ElkはICCAチップの平均性能の94%を達成している。
- 参考スコア(独自算出の注目度): 4.967030650006704
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: To meet the increasing demand of deep learning (DL) models, AI chips are employing both off-chip memory (e.g., HBM) and high-bandwidth low-latency interconnect for direct inter-core data exchange. However, it is not easy to explore the efficiency of these inter-core connected AI (ICCA) chips, due to a fundamental tussle among compute (per-core execution), communication (inter-core data exchange), and I/O (off-chip data access). In this paper, we develop Elk, a DL compiler framework to maximize the efficiency of ICCA chips by jointly trading off all the three performance factors discussed above. Elk structures these performance factors into configurable parameters and forms a global trade-off space in the DL compiler. To systematically explore this space and maximize overall efficiency, Elk employs a new inductive operator scheduling policy and a cost-aware on-chip memory allocation algorithm. It generates globally optimized execution plans that best overlap off-chip data loading and on-chip execution. To examine the efficiency of Elk, we build a full-fledged emulator based on a real ICCA chip IPU-POD4, and an ICCA chip simulator for sensitivity analysis with different interconnect network topologies. Elk achieves 94% of the ideal roofline performance of ICCA chips on average, showing the benefits of supporting large DL models on ICCA chips. We also show Elk's capability of enabling architecture design space exploration for new ICCA chip development.
- Abstract(参考訳): ディープラーニング(DL)モデルの需要の増加に対応するため、AIチップは、オフチップメモリ(例えば、HBM)と、直接コア間データ交換のための高帯域低レイテンシ相互接続の両方を使用している。
しかし、計算(コアごとの実行)、通信(コア間データ交換)、I/O(オフチップデータアクセス)の基本的な障害のため、これらのコア間接続型AIチップの効率を調査するのは容易ではない。
本稿では,ICCA チップの効率を最大化するための DL コンパイラである Elk を開発した。
Elkはこれらのパフォーマンス要素を設定可能なパラメータに構造化し、DLコンパイラでグローバルなトレードオフ空間を形成する。
この空間を体系的に探索し、全体的な効率を最大化するために、エルクは新たなインダクティブ演算子スケジューリングポリシーとコストを意識したオンチップメモリ割り当てアルゴリズムを採用している。
グローバルに最適化された実行プランを生成し、オフチップのデータロードとオンチップ実行を最もよく重複させる。
実ICCAチップIPU-POD4とICCAチップシミュレータを用いて,相互接続型ネットワークトポロジを用いた感度解析を行う。
ElkはICCAチップの理想的な屋根面性能の94%を達成し、ICCAチップ上で大きなDLモデルをサポートする利点を示している。
また,新しいICCAチップ開発のためのアーキテクチャ設計空間探索を可能にするElkの機能を示す。
関連論文リスト
- Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive [58.0729162588429]
インタラクティブセグメンテーションは、ユーザプロンプトからターゲット領域をセグメンテーションすることで、アノテーション効率を向上させる。
現在のアプローチは重要なトレードオフに直面している。密度の高いメソッドは精度が向上するが、CPUデバイスでの処理が著しく遅くなる。
そこで我々は,高密度な処理における計算割り当てを最適化することで,この問題に対処するInter2Formerを提案する。
論文 参考訳(メタデータ) (2025-07-13T12:33:37Z) - CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Scaling Deep Learning Computation over the Inter-Core Connected Intelligence Processor with T10 [13.293273876476512]
AIチップ上でコア間通信帯域とオンチップメモリを利用する最初のDLコンパイラであるT10を提案する。
T10は、オンチップメモリ消費とコア間通信オーバーヘッドのトレードオフをグローバルに最適化する。
実際のコア間接続型AIチップであるGraphcore IPUによる評価は、最大3.3$times$パフォーマンス改善を示す。
論文 参考訳(メタデータ) (2024-08-09T01:28:09Z) - Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms [77.71341200638416]
ChiPBenchはAIベースのチップ配置アルゴリズムの有効性を評価するために設計されたベンチマークである。
評価のために、さまざまなドメイン(CPU、GPU、マイクロコントローラなど)から20の回路を集めました。
その結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPA結果は満足できないことがわかった。
論文 参考訳(メタデータ) (2024-07-03T03:29:23Z) - CLSA-CIM: A Cross-Layer Scheduling Approach for Computing-in-Memory
Architectures [0.1747623282473278]
CIMアーキテクチャの階層間スケジューリングアルゴリズムであるCLSA-CIMを提案する。
CLSA-CIMと既存の重み付け戦略を統合し,SOTA(State-of-the-art)スケジューリングアルゴリズムとの比較を行った。
論文 参考訳(メタデータ) (2024-01-15T13:35:21Z) - REED: Chiplet-Based Accelerator for Fully Homomorphic Encryption [4.713756093611972]
本稿では,従来のモノリシック設計の限界を克服する,マルチチップベースのFHEアクセラレータREEDについて紹介する。
その結果、REED 2.5Dマイクロプロセッサはチップ面積96.7 mm$2$、平均電力49.4Wを7nm技術で消費していることがわかった。
論文 参考訳(メタデータ) (2023-08-05T14:04:39Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z) - PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal
Matrices [35.90103072918056]
ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。
モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。
本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
論文 参考訳(メタデータ) (2020-04-23T02:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。