論文の概要: Bring Your Own Codegen to Deep Learning Compiler
- arxiv url: http://arxiv.org/abs/2105.03215v1
- Date: Mon, 3 May 2021 17:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 08:36:52.064385
- Title: Bring Your Own Codegen to Deep Learning Compiler
- Title(参考訳): Deep Learning Compilerに独自のコーダーを導入
- Authors: Zhi Chen, Cody Hao Yu, Trevor Morris, Jorn Tuyls, Yi-Hsiang Lai, Jared
Roesch, Elliott Delaye, Vin Sharma, Yida Wang
- Abstract要約: 本稿では,独自のコード生成ツールの開発にのみ集中できるオープンソースフレームワークを提案する。
当社のフレームワークは、柔軟で使いやすいインターフェースをユーザーに提供し、モデルを「最高の」プロセッサで実行できるセグメントに分割します。
- 参考スコア(独自算出の注目度): 8.87545486816377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) have been ubiquitously applied in many
applications, and accelerators are emerged as an enabler to support the fast
and efficient inference tasks of these applications. However, to achieve high
model coverage with high performance, each accelerator vendor has to develop a
full compiler stack to ingest, optimize, and execute the DNNs. This poses
significant challenges in the development and maintenance of the software
stack. In addition, the vendors have to contiguously update their hardware
and/or software to cope with the rapid evolution of the DNN model architectures
and operators. To address these issues, this paper proposes an open source
framework that enables users to only concentrate on the development of their
proprietary code generation tools by reusing as many as possible components in
the existing deep learning compilers. Our framework provides users flexible and
easy-to-use interfaces to partition their models into segments that can be
executed on "the best" processors to take advantage of the powerful computation
capability of accelerators. Our case study shows that our framework has been
deployed in multiple commercial vendors' compiler stacks with only a few
thousand lines of code.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)は、多くのアプリケーションに広く適用されており、これらのアプリケーションの高速かつ効率的な推論タスクをサポートするためのイネーブルとしてアクセラレータが登場している。
しかし、高いモデルカバレッジを高いパフォーマンスで達成するには、各アクセラレータベンダーは、DNNを取り込み、最適化し、実行するための完全なコンパイラスタックを開発する必要がある。
これは、ソフトウェアスタックの開発とメンテナンスに重大な課題をもたらします。
さらにベンダーは、DNNモデルアーキテクチャやオペレータの急速な進化に対応するために、ハードウェアやソフトウェアを継続的にアップデートする必要がある。
これらの課題に対処するために,既存のディープラーニングコンパイラのコンポーネントを可能な限り再利用することにより,ユーザが独自コード生成ツールの開発のみに集中できるようにするオープンソースフレームワークを提案する。
我々のフレームワークは、ユーザが柔軟で使いやすいインターフェイスを使ってモデルをセグメントに分割し、「最高の」プロセッサ上で実行でき、アクセラレーターの強力な計算能力を利用することができます。
私たちのケーススタディでは、私たちのフレームワークは数千行のコードしか持たない複数の商用ベンダーのコンパイラスタックにデプロイされています。
関連論文リスト
- LLM-Aided Compilation for Tensor Accelerators [6.709490736813537]
我々は,大規模言語モデル(LLM)を用いてハードウェアアクセラレーター用のコンパイラを構築する方法について論じる。
具体的には,GPT-4がGemminiアクセラレータへのコード変換において高いパスレートを達成する能力を示す。
また,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
論文 参考訳(メタデータ) (2024-08-06T19:10:25Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - AgentScope: A Flexible yet Robust Multi-Agent Platform [66.64116117163755]
AgentScopeは、メッセージ交換をコアコミュニケーションメカニズムとする、開発者中心のマルチエージェントプラットフォームである。
豊富な構文ツール、組み込みエージェントとサービス機能、アプリケーションのデモとユーティリティモニタのためのユーザフレンドリなインターフェース、ゼロコードプログラミングワークステーション、自動プロンプトチューニング機構により、開発とデプロイメントの両方の障壁は大幅に低下した。
論文 参考訳(メタデータ) (2024-02-21T04:11:28Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - SOL: Reducing the Maintenance Overhead for Integrating Hardware Support
into AI Frameworks [0.7614628596146599]
Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4JといったAIフレームワークは、ハイレベルなスクリプティングAPIを提供する。
主流でないCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。
NEC Laboratories Europeは、すでに数年前にSOL AI Optimizationプロジェクトの開発を開始した。
論文 参考訳(メタデータ) (2022-05-19T08:40:46Z) - Resistive Neural Hardware Accelerators [0.46198289193451136]
ReRAMベースのインメモリコンピューティングは、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
ReRAMベースのインメモリコンピューティングへの移行は、領域と電力効率のよい推論の実装において大きな可能性を秘めている。
本稿では,最先端のReRAMベースディープニューラルネットワーク(DNN)多コアアクセラレータについて概説する。
論文 参考訳(メタデータ) (2021-09-08T21:11:48Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。