論文の概要: A High-Level Compiler Integration Approach for Deep Learning Accelerators Supporting Abstraction and Optimization
- arxiv url: http://arxiv.org/abs/2507.04828v1
- Date: Mon, 07 Jul 2025 09:50:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.365061
- Title: A High-Level Compiler Integration Approach for Deep Learning Accelerators Supporting Abstraction and Optimization
- Title(参考訳): 抽象化と最適化を支援するディープラーニング加速器のための高レベルコンパイラ統合手法
- Authors: Samira Ahmadifarsani, Daniel Mueller-Gritschneder, Ulf Schlichtmann,
- Abstract要約: 本稿では,GEMMに基づくディープラーニングアクセラレータを対象とするTVMベースのコンパイル統合手法を提案する。
我々のアプローチは、コンパイラ統合の複雑さを抽象化し、アクセラレータのシームレスな統合を可能にします。
我々のフレームワークはGemminiアクセラレータでベンチマークされており、手動で実装されたツールチェーンに匹敵するパフォーマンスを示している。
- 参考スコア(独自算出の注目度): 1.2828127925625228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing adoption of domain-specific architectures in edge computing platforms for deep learning has highlighted the efficiency of hardware accelerators. However, integrating custom accelerators into modern machine learning (ML) compilers remains a complex challenge due to the need for significant modifications in compilation layers and specialized scheduling techniques. Existing frameworks offer partial solutions and require users to navigate intricate compiler internals. In this paper, we introduce a TVM-based compilation integration approach that targets GEMM-based deep learning accelerators. Our approach abstracts the complexities of compiler integration, enabling seamless integration of accelerators without requiring in-depth knowledge of the underlying compiler. Furthermore, we extend and incorporate design space exploration tools, specifically CoSA, to automate efficient tensor scheduling, accounting for factors such as uneven mapping and double buffering. Our framework is benchmarked on the Gemmini accelerator, demonstrating performance comparable to its specialized manually implemented toolchain.
- Abstract(参考訳): ディープラーニングのためのエッジコンピューティングプラットフォームにおけるドメイン固有アーキテクチャの採用の増加は、ハードウェアアクセラレータの効率性を強調している。
しかし、コンパイル層や特別なスケジューリング技術に大きな変更を加える必要があるため、カスタムアクセラレータを現代の機械学習(ML)コンパイラに統合することは、依然として複雑な課題である。
既存のフレームワークは部分的なソリューションを提供し、ユーザーは複雑なコンパイラ内部をナビゲートする必要がある。
本稿では,GEMMに基づくディープラーニングアクセラレータを対象とするTVMベースのコンパイル統合手法を提案する。
我々のアプローチは、コンパイラ統合の複雑さを抽象化し、基礎となるコンパイラの深い知識を必要とせずに、アクセラレータのシームレスな統合を可能にします。
さらに、設計空間探索ツール、特にCoSAを拡張して、効率的なテンソルスケジューリングを自動化し、不均一マッピングやダブルバッファリングなどの要因を考慮に入れます。
我々のフレームワークはGemminiアクセラレータでベンチマークされており、手動で実装されたツールチェーンに匹敵するパフォーマンスを示している。
関連論文リスト
- CompileAgent: Automated Real-World Repo-Level Compilation with Tool-Integrated LLM-based Agent System [52.048087777953064]
リポジトリレベルのコンパイル専用のエージェントフレームワークであるCompileAgentを提案する。
CompileAgentは5つのツールとフローベースのエージェント戦略を統合し、コンパイル命令検索とエラー解決のためのソフトウェアアーチファクトとのインタラクションを可能にする。
提案手法は,10%から71%の範囲で,コンパイル成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-05-07T08:59:14Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - LLM-Aided Compilation for Tensor Accelerators [6.709490736813537]
我々は,大規模言語モデル(LLM)を用いてハードウェアアクセラレーター用のコンパイラを構築する方法について論じる。
具体的には,GPT-4がGemminiアクセラレータへのコード変換において高いパスレートを達成する能力を示す。
また,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
論文 参考訳(メタデータ) (2024-08-06T19:10:25Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Composing Complex and Hybrid AI Solutions [52.00820391621739]
一般的なAIアプリケーションで上記の機能を実現するためのAcumosシステムの拡張について述べる。
当社の拡張機能には、gRPC/Protobufインターフェースによるより汎用的なコンポーネントのサポートが含まれています。
デプロイ可能なソリューションとそのインターフェースの例を提供する。
論文 参考訳(メタデータ) (2022-02-25T08:57:06Z) - Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators [4.055002321981825]
We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
論文 参考訳(メタデータ) (2021-09-15T16:42:18Z) - Bring Your Own Codegen to Deep Learning Compiler [8.87545486816377]
本稿では,独自のコード生成ツールの開発にのみ集中できるオープンソースフレームワークを提案する。
当社のフレームワークは、柔軟で使いやすいインターフェースをユーザーに提供し、モデルを「最高の」プロセッサで実行できるセグメントに分割します。
論文 参考訳(メタデータ) (2021-05-03T17:22:25Z) - Hardware Acceleration of Sparse and Irregular Tensor Computations of ML
Models: A Survey and Insights [18.04657939198617]
本稿では,ハードウェアアクセラレータ上での機械学習モデルのスパースおよび不規則テンソル計算の効率的な実行に関する包括的調査を行う。
異なるハードウェア設計とアクセラレーション技術を分析し、ハードウェアと実行コストの観点から分析する。
スパース、不規則形状、量子化テンソルの加速における重要な課題を理解すること。
論文 参考訳(メタデータ) (2020-07-02T04:08:40Z) - Agile Autotuning of a Transprecision Tensor Accelerator Overlay for TVM
Compiler Stack [1.8337659614890698]
ブロック行列演算や多次元畳み込みなどのテンソル演算のための特別なアクセラレータは、ディープラーニングコンピューティングの強力なアーキテクチャ選択として登場した。
フレームワーク、モデル、精度オプションの急速な開発は、そのようなテンソル加速器の適応性に挑戦する。
プログラム可能なテンソルアクセラレータは、物理FPGAファブリック上にオーバーレイする仮想アーキテクチャの再構成を可能にすることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2020-04-20T10:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。