論文の概要: Bolt: Bridging the Gap between Auto-tuners and Hardware-native
Performance
- arxiv url: http://arxiv.org/abs/2110.15238v1
- Date: Mon, 25 Oct 2021 19:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:04:13.749665
- Title: Bolt: Bridging the Gap between Auto-tuners and Hardware-native
Performance
- Title(参考訳): Bolt: 自動チューニングとハードウェアネイティブパフォーマンスのギャップを埋める
- Authors: Jiarong Xing, Leyuan Wang, Shang Zhang, Jack Chen, Ang Chen, Yibo Zhu
- Abstract要約: ボルトは、一般的な畳み込みニューラルネットワークの推論速度を平均2.5倍改善する。
グラフ、演算子、モデルレベルでのエンドツーエンドのテンソル最適化を再考する新たな機会を提供する。
- 参考スコア(独自算出の注目度): 9.02958113980999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's auto-tuners (e.g., AutoTVM, Ansor) generate efficient tensor programs
by navigating a large search space to identify effective implementations, but
they do so with opaque hardware details. Thus, their performance could fall
behind that of hardware-native libraries (e.g., cuBLAS, cuDNN), which are
hand-optimized by device vendors to extract high performance. On the other
hand, these vendor libraries have a fixed set of supported functions and lack
the customization and automation support afforded by auto-tuners. Bolt is based
on the recent trend that vendor libraries are increasingly modularized and
reconfigurable via declarative control (e.g., CUTLASS). It enables a novel
approach that bridges this gap and achieves the best of both worlds, via
hardware-native templated search. Bolt provides new opportunities to rethink
end-to-end tensor optimizations at the graph, operator, and model levels. Bolt
demonstrates this concept by prototyping on a popular auto-tuner in TVM and a
class of widely-used platforms (i.e., NVIDIA GPUs) -- both in large deployment
in our production environment. Bolt improves the inference speed of common
convolutional neural networks by 2.5x on average over the state of the art, and
it auto-tunes these models within 20 minutes.
- Abstract(参考訳): 今日のオートチューナー(AutoTVM、Ansorなど)は、大規模な検索スペースをナビゲートして効率的な実装を特定することで効率的なテンソルプログラムを生成するが、それらは不透明なハードウェアの詳細で実現している。
したがって、ハードウェアネイティブライブラリ(cuBLASやcuDNNなど)のそれよりもパフォーマンスが劣る可能性がある。
一方、これらのベンダーライブラリは、サポート対象関数の固定セットを持ち、自動チューニングによって提供されるカスタマイズと自動化サポートが欠如している。
Boltは、宣言的制御(例えばCUTLASS)を通じて、ベンダーライブラリがモジュール化され、再構成可能であるという最近の傾向に基づいている。
これにより、ハードウェアネイティブなテンプレート検索を通じて、このギャップを橋渡しし、両世界のベストを実現する、新たなアプローチが可能になる。
boltは、グラフ、演算子、モデルレベルでエンドツーエンドのテンソル最適化を再考する新しい機会を提供する。
Bolt氏はこのコンセプトを,TVMで人気のオートチューニングと,広く使用されているプラットフォーム(NVIDIA GPUなど)のクラスにプロトタイピングすることで実現している。
Boltは、一般的な畳み込みニューラルネットワークの推論速度を平均2.5倍改善し、これらのモデルを20分以内に自動チューニングする。
関連論文リスト
- PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time
and Robustness [1.165213554548421]
本研究は,VTAハードウェアにおける自動チューニングプロセスとその基盤となる性能予測モデルに,不正な構成がどう影響するかを評価する。
AutoTVMの妥当性駆動方式が開発され、最良のソリューションを見つけるのに必要なハードウェアの41.6%しか必要としない。
論文 参考訳(メタデータ) (2022-05-31T07:16:14Z) - SOL: Reducing the Maintenance Overhead for Integrating Hardware Support
into AI Frameworks [0.7614628596146599]
Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4JといったAIフレームワークは、ハイレベルなスクリプティングAPIを提供する。
主流でないCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。
NEC Laboratories Europeは、すでに数年前にSOL AI Optimizationプロジェクトの開発を開始した。
論文 参考訳(メタデータ) (2022-05-19T08:40:46Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - Toward Accurate Platform-Aware Performance Modeling for Deep Neural
Networks [0.17499351967216337]
機械学習に基づくPerfNetV2は、さまざまなGPUアクセラレータ上でのニューラルネットワークのパフォーマンスをモデル化するための、これまでの作業の精度を向上させる。
アプリケーションを利用すると、アプリケーションで使用される畳み込みニューラルネットワークの推論時間とトレーニング時間を予測することができる。
我々のケーススタディでは、PerfNetV2が13.1%のLeNet、AlexNet、VGG16、NVIDIA GTX-1080Tiで平均絶対パーセンテージエラーを発生し、ICBD 2018で発表された以前の研究のエラー率は200%に達する可能性がある。
論文 参考訳(メタデータ) (2020-12-01T01:42:23Z) - VEGA: Towards an End-to-End Configurable AutoML Pipeline [101.07003005736719]
VEGAは効率よく包括的なAutoMLフレームワークで、複数のハードウェアプラットフォームに互換性があり、最適化されている。
VEGAは既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見する。
論文 参考訳(メタデータ) (2020-11-03T06:53:53Z) - Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。
現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。
本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文 参考訳(メタデータ) (2020-06-26T19:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。