論文の概要: Tailor: Altering Skip Connections for Resource-Efficient Inference
- arxiv url: http://arxiv.org/abs/2301.07247v2
- Date: Fri, 15 Sep 2023 22:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 01:00:36.349793
- Title: Tailor: Altering Skip Connections for Resource-Efficient Inference
- Title(参考訳): Tailor: リソース効率の良い推論のためのスキップ接続の変更
- Authors: Olivia Weng, Gabriel Marcano, Vladimir Loncar, Alireza Khodamoradi,
Nojan Sheybani, Andres Meza, Farinaz Koushanfar, Kristof Denolf, Javier
Mauricio Duarte, Ryan Kastner
- Abstract要約: ハードウェア・ソフトウェア・コードサイン・アプローチに取り組み、スキップ接続をハードウェアに最適化できることが示される。
ハードウェアを意識したトレーニングアルゴリズムが、ハードウェアコストを削減するために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮するコードサインツールであるTailorを紹介した。
- 参考スコア(独自算出の注目度): 15.72369066115206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks use skip connections to improve training convergence.
However, these skip connections are costly in hardware, requiring extra buffers
and increasing on- and off-chip memory utilization and bandwidth requirements.
In this paper, we show that skip connections can be optimized for hardware when
tackled with a hardware-software codesign approach. We argue that while a
network's skip connections are needed for the network to learn, they can later
be removed or shortened to provide a more hardware efficient implementation
with minimal to no accuracy loss. We introduce Tailor, a codesign tool whose
hardware-aware training algorithm gradually removes or shortens a fully trained
network's skip connections to lower their hardware cost. Tailor improves
resource utilization by up to 34% for BRAMs, 13% for FFs, and 16% for LUTs for
on-chip, dataflow-style architectures. Tailor increases performance by 30% and
reduces memory bandwidth by 45% for a 2D processing element array architecture.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニング収束を改善するためにスキップ接続を使用する。
しかし、これらのスキップ接続はハードウェアでコストがかかり、追加のバッファが必要となり、オンチップとオフチップのメモリ使用量と帯域幅要件が増加する。
本稿では,ハードウェア・ソフトウェア・コード署名アプローチに取り組み,スキップ接続をハードウェアに最適化できることを示す。
ネットワークが学習するためにはネットワークのスキップ接続が必要であるが、その接続は後に削除または短縮され、精度の低下を最小限に抑えることなく、よりハードウェア効率の良い実装を提供することができる。
ハードウェアアウェアトレーニングアルゴリズムは、ハードウェアコストを下げるために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮する。
Tailorは、BRAMで最大34%、FFで13%、オンチップでデータフロースタイルのアーキテクチャで16%のリソース利用を改善する。
Tailorはパフォーマンスを30%向上し、2D処理要素配列アーキテクチャではメモリ帯域幅を45%削減する。
関連論文リスト
- Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned subspace projectors [11.938205508966808]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP_Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z) - Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - On-Device Training Under 256KB Memory [62.95579393237751]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは256KBと1MBのFlashで畳み込みニューラルネットワークのデバイス上での小さなトレーニングを可能にする最初のソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - ProgFed: Effective, Communication, and Computation Efficient Federated Learning by Progressive Training [65.68511423300812]
本稿では,効率的なフェデレート学習のためのプログレッシブトレーニングフレームワークであるProgFedを提案する。
ProgFedは計算と双方向通信のコストを本質的に低減し、最終モデルの強力な性能を維持している。
以上の結果から, ProgFed はフルモデルの標準トレーニングと同等の速度で収束することがわかった。
論文 参考訳(メタデータ) (2021-10-11T14:45:00Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Hardware-efficient Residual Networks for FPGAs [2.025761610861237]
残留ネットワーク(ResNets)は、トレーニング収束を改善するために、ネットワーク内のスキップ接続を使用する。
スキップ接続はResNetのハードウェア実装に課題をもたらす。
本稿では,ResNetのスキップ接続を段階的に除去する学習手法を提案する。
論文 参考訳(メタデータ) (2021-02-02T06:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。