論文の概要: Bolt: Bridging the Gap between Auto-tuners and Hardware-native
Performance
- arxiv url: http://arxiv.org/abs/2110.15238v1
- Date: Mon, 25 Oct 2021 19:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-29 16:04:13.749665
- Title: Bolt: Bridging the Gap between Auto-tuners and Hardware-native
Performance
- Title(参考訳): Bolt: 自動チューニングとハードウェアネイティブパフォーマンスのギャップを埋める
- Authors: Jiarong Xing, Leyuan Wang, Shang Zhang, Jack Chen, Ang Chen, Yibo Zhu
- Abstract要約: ボルトは、一般的な畳み込みニューラルネットワークの推論速度を平均2.5倍改善する。
グラフ、演算子、モデルレベルでのエンドツーエンドのテンソル最適化を再考する新たな機会を提供する。
- 参考スコア(独自算出の注目度): 9.02958113980999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Today's auto-tuners (e.g., AutoTVM, Ansor) generate efficient tensor programs
by navigating a large search space to identify effective implementations, but
they do so with opaque hardware details. Thus, their performance could fall
behind that of hardware-native libraries (e.g., cuBLAS, cuDNN), which are
hand-optimized by device vendors to extract high performance. On the other
hand, these vendor libraries have a fixed set of supported functions and lack
the customization and automation support afforded by auto-tuners. Bolt is based
on the recent trend that vendor libraries are increasingly modularized and
reconfigurable via declarative control (e.g., CUTLASS). It enables a novel
approach that bridges this gap and achieves the best of both worlds, via
hardware-native templated search. Bolt provides new opportunities to rethink
end-to-end tensor optimizations at the graph, operator, and model levels. Bolt
demonstrates this concept by prototyping on a popular auto-tuner in TVM and a
class of widely-used platforms (i.e., NVIDIA GPUs) -- both in large deployment
in our production environment. Bolt improves the inference speed of common
convolutional neural networks by 2.5x on average over the state of the art, and
it auto-tunes these models within 20 minutes.
- Abstract(参考訳): 今日のオートチューナー(AutoTVM、Ansorなど)は、大規模な検索スペースをナビゲートして効率的な実装を特定することで効率的なテンソルプログラムを生成するが、それらは不透明なハードウェアの詳細で実現している。
したがって、ハードウェアネイティブライブラリ(cuBLASやcuDNNなど)のそれよりもパフォーマンスが劣る可能性がある。
一方、これらのベンダーライブラリは、サポート対象関数の固定セットを持ち、自動チューニングによって提供されるカスタマイズと自動化サポートが欠如している。
Boltは、宣言的制御(例えばCUTLASS)を通じて、ベンダーライブラリがモジュール化され、再構成可能であるという最近の傾向に基づいている。
これにより、ハードウェアネイティブなテンプレート検索を通じて、このギャップを橋渡しし、両世界のベストを実現する、新たなアプローチが可能になる。
boltは、グラフ、演算子、モデルレベルでエンドツーエンドのテンソル最適化を再考する新しい機会を提供する。
Bolt氏はこのコンセプトを,TVMで人気のオートチューニングと,広く使用されているプラットフォーム(NVIDIA GPUなど)のクラスにプロトタイピングすることで実現している。
Boltは、一般的な畳み込みニューラルネットワークの推論速度を平均2.5倍改善し、これらのモデルを20分以内に自動チューニングする。
関連論文リスト
- ProTEA: Programmable Transformer Encoder Acceleration on FPGA [0.0]
トランスフォーマーニューラルネットワーク(TNN)は、自然言語処理(NLP)、機械翻訳、コンピュータビジョン(CV)など、様々な用途で広く利用されている。
TNNの人気にもかかわらず、これら2つの重要なブロックをターゲットにしたハードウェアアクセラレータは限られている。
本稿では,最先端の変圧器エンコーダの高密度計算に適したプログラム実行アクセラレータである textitProTEA を紹介する。
論文 参考訳(メタデータ) (2024-09-21T01:44:13Z) - Connecting the Dots: Collaborative Fine-tuning for Black-Box Vision-Language Models [121.0693322732454]
本稿では,下流タスクに対するブラックボックス視覚言語モデルの微調整のための textbfCraFT' アプローチを提案する。
CraFTは、2つのモジュールと、テキストプロンプトを学習するプロンプト生成モジュールと、残差スタイルの出力予測を強化する予測改善モジュールとから構成される。
15以上のデータセットに対する数ショットの分類実験は、CraFTの優位性を示している。
論文 参考訳(メタデータ) (2024-02-06T14:53:19Z) - PockEngine: Sparse and Efficient Fine-tuning in a Pocket [62.955793932377524]
さまざまなエッジデバイスで微調整が可能な,小型でスパースで効率的なエンジンであるPockEngineを紹介します。
PockEngineはスパースバックプロパゲーションをサポートし、測定メモリの節約とレイテンシの削減でモデルをスパース更新する。
注目すべきなのは、PockEngineはNVIDIA Jetson AGX OrinのLLaMav2-7Bを550トークン/秒で微調整できることだ。
論文 参考訳(メタデータ) (2023-10-26T19:46:11Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Hidet: Task Mapping Programming Paradigm for Deep Learning Tensor
Programs [11.338285393619042]
本稿では,スケジューリングプロセスをテンソルプログラムに組込み,タスクマッピングと呼ばれる専用マッピングを用いて計算の割り当てと順序付けを定義することを提案する。
提案するパラダイムでは、深層学習コンパイラであるHietを実装しています。
論文 参考訳(メタデータ) (2022-10-18T05:32:13Z) - SegNeXt: Rethinking Convolutional Attention Design for Semantic
Segmentation [100.89770978711464]
セマンティックセグメンテーションのための単純な畳み込みネットワークアーキテクチャであるSegNeXtを提案する。
コンボリューションアテンションは、トランスフォーマーの自己認識メカニズムよりも、文脈情報をエンコードするより効率的で効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-09-18T14:33:49Z) - HW-Aware Initialization of DNN Auto-Tuning to Improve Exploration Time
and Robustness [1.165213554548421]
本研究は,VTAハードウェアにおける自動チューニングプロセスとその基盤となる性能予測モデルに,不正な構成がどう影響するかを評価する。
AutoTVMの妥当性駆動方式が開発され、最良のソリューションを見つけるのに必要なハードウェアの41.6%しか必要としない。
論文 参考訳(メタデータ) (2022-05-31T07:16:14Z) - SOL: Reducing the Maintenance Overhead for Integrating Hardware Support
into AI Frameworks [0.7614628596146599]
Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4JといったAIフレームワークは、ハイレベルなスクリプティングAPIを提供する。
主流でないCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。
NEC Laboratories Europeは、すでに数年前にSOL AI Optimizationプロジェクトの開発を開始した。
論文 参考訳(メタデータ) (2022-05-19T08:40:46Z) - LiteTransformerSearch: Training-free On-device Search for Efficient
Autoregressive Language Models [34.673688610935876]
モデルトレーニングを必要とせずに、レイテンシとパープレクシリティが最前線に現れることを示す。
我々は,多種多様なデバイス上での軽量トランスフォーマーサーチ (LTS) の評価を行った。
最大2倍のレイテンシでTransformer-XLのパープレキシティを実現することができることを示す。
論文 参考訳(メタデータ) (2022-03-04T02:10:43Z) - VEGA: Towards an End-to-End Configurable AutoML Pipeline [101.07003005736719]
VEGAは効率よく包括的なAutoMLフレームワークで、複数のハードウェアプラットフォームに互換性があり、最適化されている。
VEGAは既存のAutoMLアルゴリズムを改善し、SOTAメソッドに対して新しい高性能モデルを発見する。
論文 参考訳(メタデータ) (2020-11-03T06:53:53Z) - Making DensePose fast and light [78.49552144907513]
このタスクを解くことができる既存のニューラルネットワークモデルは、非常にパラメータ化されている。
現在のモデルで端末のDense Pose推論を有効にするには、高価なサーバーサイドのインフラをサポートし、安定したインターネット接続が必要である。
本研究では,DensePose R-CNNモデルのアーキテクチャを再設計することで,最終的なネットワークがその精度の大部分を維持しつつ,より軽量で高速なネットワークを実現することを目的とする。
論文 参考訳(メタデータ) (2020-06-26T19:42:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。