論文の概要: CoCoPIE XGen: A Full-Stack AI-Oriented Optimizing Framework
- arxiv url: http://arxiv.org/abs/2206.10620v1
- Date: Tue, 21 Jun 2022 14:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 06:53:31.455249
- Title: CoCoPIE XGen: A Full-Stack AI-Oriented Optimizing Framework
- Title(参考訳): CoCoPIE XGen: フルスタックのAI指向最適化フレームワーク
- Authors: Xiaofeng Li, Bin Ren, Xipeng Shen, Yanzhi Wang
- Abstract要約: クラウド上のデータセンタからエッジあるいはエンドデバイスへと、AI能力のデリバリをシフトする需要が高まっている。
しかし、このシフトは、DNNコンピューティング要求とエッジまたはエンドデバイスにおけるコンピューティングパワーの間の大きなギャップによって妨げられている。
本稿では、このギャップを埋めるために設計されたDNNの最適化フレームワークであるXGenの設計について述べる。
- 参考スコア(独自算出の注目度): 40.53707613126131
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing demand for shifting the delivery of AI capability from
data centers on the cloud to edge or end devices, exemplified by the fast
emerging real-time AI-based apps running on smartphones, AR/VR devices,
autonomous vehicles, and various IoT devices. The shift has however been
seriously hampered by the large growing gap between DNN computing demands and
the computing power on edge or end devices. This article presents the design of
XGen, an optimizing framework for DNN designed to bridge the gap. XGen takes
cross-cutting co-design as its first-order consideration. Its full-stack
AI-oriented optimizations consist of a number of innovative optimizations at
every layer of the DNN software stack, all designed in a cooperative manner.
The unique technology makes XGen able to optimize various DNNs, including those
with an extreme depth (e.g., BERT, GPT, other transformers), and generate code
that runs several times faster than those from existing DNN frameworks, while
delivering the same level of accuracy.
- Abstract(参考訳): スマートフォン、AR/VRデバイス、自動運転車、およびさまざまなIoTデバイス上で動作する、急成長中のリアルタイムAIベースのアプリによって実証されている。
しかし、このシフトは、dnnのコンピューティング要求とエッジまたはエンドデバイスでのコンピューティングパワーの間の大きなギャップによって深刻な障害となっている。
本稿では、このギャップを埋めるために設計されたDNNの最適化フレームワークであるXGenの設計について述べる。
XGenは、クロスカット共同設計を第一級の考慮事項としている。
フルスタックのAI指向の最適化は、DNNソフトウェアスタックのすべてのレイヤにおいて、多くの革新的な最適化で構成されている。
このユニークな技術により、XGenは極度の深さ(BERT、GPT、その他のトランスフォーマーなど)を含む様々なDNNを最適化でき、既存のDNNフレームワークの何倍も高速に動作するコードを生成することができる。
関連論文リスト
- Latency optimized Deep Neural Networks (DNNs): An Artificial Intelligence approach at the Edge using Multiprocessor System on Chip (MPSoC) [1.949471382288103]
モバイルデバイスにおけるエッジコンピューティング(Edge at Edge)は、この要件に対処するための最適化されたアプローチのひとつだ。
本研究では,低レイテンシ・電力最適化型スマートモバイルシステムの実現の可能性と課題について考察する。
組込みFPGAエッジデバイス上でのニューラルネットワーク(NN)の性能と実装可能性について論じる。
論文 参考訳(メタデータ) (2024-07-16T11:51:41Z) - Fast GraspNeXt: A Fast Self-Attention Neural Network Architecture for
Multi-task Learning in Computer Vision Tasks for Robotic Grasping on the Edge [80.88063189896718]
アーキテクチャと計算の複雑さが高いと、組み込みデバイスへのデプロイに適さない。
Fast GraspNeXtは、ロボットグルーピングのためのコンピュータビジョンタスクに埋め込まれたマルチタスク学習に適した、高速な自己認識型ニューラルネットワークアーキテクチャである。
論文 参考訳(メタデータ) (2023-04-21T18:07:14Z) - SOL: Reducing the Maintenance Overhead for Integrating Hardware Support
into AI Frameworks [0.7614628596146599]
Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4JといったAIフレームワークは、ハイレベルなスクリプティングAPIを提供する。
主流でないCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。
NEC Laboratories Europeは、すでに数年前にSOL AI Optimizationプロジェクトの開発を開始した。
論文 参考訳(メタデータ) (2022-05-19T08:40:46Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - E3NE: An End-to-End Framework for Accelerating Spiking Neural Networks
with Emerging Neural Encoding on FPGAs [6.047137174639418]
エンドツーエンドフレームワークのE3NEはFPGAのための効率的なSNN推論ロジックを生成する。
E3NEはハードウェアリソースの50%未満を消費し、20%の電力を消費する一方で、レイテンシを桁違いに低減する。
論文 参考訳(メタデータ) (2021-11-19T04:01:19Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z) - CoCoPIE: Making Mobile AI Sweet As PIE --Compression-Compilation
Co-Design Goes a Long Way [39.63763140268978]
特定のハードウェアを使わずに、メインストリームのデバイス上でリアルタイム人工知能を有効にすることができる。
CoCoPIEは、モバイルAIに関する数多くの記録を保持するソフトウェアフレームワークである。
論文 参考訳(メタデータ) (2020-03-14T20:53:05Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。