論文の概要: Tailor: Altering Skip Connections for Resource-Efficient Inference
- arxiv url: http://arxiv.org/abs/2301.07247v1
- Date: Wed, 18 Jan 2023 01:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:12:51.269276
- Title: Tailor: Altering Skip Connections for Resource-Efficient Inference
- Title(参考訳): Tailor: リソース効率の良い推論のためのスキップ接続の変更
- Authors: Olivia Weng, Gabriel Marcano, Vladimir Loncar, Alireza Khodamoradi,
Nojan Sheybani, Farinaz Koushanfar, Kristof Denolf, Javier Mauricio Duarte,
Ryan Kastner
- Abstract要約: ハードウェア・ソフトウェア・コードサイン・アプローチに取り組み、スキップ接続をハードウェアに最適化できることが示される。
ハードウェアを意識したトレーニングアルゴリズムが、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮するコードサインツールであるTailorを紹介した。
- 参考スコア(独自算出の注目度): 17.928309391893787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks use skip connections to improve training convergence.
However, these skip connections are costly in hardware, requiring extra buffers
and increasing on- and off-chip memory utilization and bandwidth requirements.
In this paper, we show that skip connections can be optimized for hardware when
tackled with a hardware-software codesign approach. We argue that while a
network's skip connections are needed for the network to learn, they can later
be removed or shortened to provide a more hardware efficient implementation
with minimal to no accuracy loss. We introduce Tailor, a codesign tool whose
hardware-aware training algorithm gradually removes or shortens a fully trained
network's skip connections to lower their hardware cost. The optimized hardware
designs improve resource utilization by up to 34% for BRAMs, 13% for FFs, and
16% for LUTs.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニング収束を改善するためにスキップ接続を使用する。
しかし、これらのスキップ接続はハードウェアでコストがかかり、追加のバッファが必要となり、オンチップとオフチップのメモリ使用量と帯域幅要件が増加する。
本稿では,ハードウェア・ソフトウェア・コード署名アプローチに取り組み,スキップ接続をハードウェアに最適化できることを示す。
ネットワークが学習するためにはネットワークのスキップ接続が必要であるが、その接続は後に削除または短縮され、精度の低下を最小限に抑えることなく、よりハードウェア効率の良い実装を提供することができる。
ハードウェアアウェアトレーニングアルゴリズムは、ハードウェアコストを下げるために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮する。
最適化されたハードウェア設計により、BRAMでは最大34%、FFでは13%、LUTでは16%のリソース利用率が向上した。
関連論文リスト
- Instant Complexity Reduction in CNNs using Locality-Sensitive Hashing [50.79602839359522]
本稿では,パラメータフリーでデータフリーなモジュールであるHASTE(Hashing for Tractable Efficiency)を提案する。
局所性感応ハッシュ (LSH) を用いることで, 精度を犠牲にすることなく, 遅延特徴写像を劇的に圧縮することができる。
特に、HASTEモジュール用のCIFAR-10上のResNet34で畳み込みモジュールを切り替えるだけで、FLOPの46.72%を即座に落とすことができる。
論文 参考訳(メタデータ) (2023-09-29T13:09:40Z) - How to Build Low-cost Networks for Large Language Models (without
Sacrificing Performance)? [7.8246968782274875]
大規模言語モデル(LLM)は、ほぼ最適な訓練性能を達成するために、高帯域通信を必要とする。
LLMの通信要求に類似した新しいネットワークアーキテクチャを提案する。
提案アーキテクチャは,最先端のクロスネットワークと比較してネットワークコストを37%から75%削減する。
論文 参考訳(メタデータ) (2023-07-22T21:18:41Z) - Dynamic Sparsity Is Channel-Level Sparsity Learner [91.31071026340746]
ダイナミックスパーストレーニング(Dynamic Sparse Training, DST)は、ススパーストレーニングの指導的アプローチである。
チャネル対応動的スパース(Chase)は、非構造的動的スパースをチャネルレベルのスパースにシームレスに変換する。
提案手法は,非構造的空間性からチャネルワイド空間性へ変換する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - Exploiting Sparsity in Pruned Neural Networks to Optimize Large Model
Training [1.5301777464637454]
並列深層学習のための2つの一般的なアルゴリズムにおいて,スパースワークを利用してメモリ利用と通信を最適化する手法を提案する。
我々は、並列ディープラーニングのための高度にスケーラブルなフレームワークであるAxoNNにアプローチを統合し、通信時間とメモリ使用量の削減を実証する。
論文 参考訳(メタデータ) (2023-02-10T04:22:25Z) - On-Device Training Under 256KB Memory [65.76525493087847]
本稿では,256KBのメモリでデバイス上でのトレーニングを可能にするアルゴリズム・システム協調設計フレームワークを提案する。
私たちのフレームワークは、小さなIoTデバイス上での視覚認識のデバイス上での転送学習のための、最初の実用的なソリューションです。
論文 参考訳(メタデータ) (2022-06-30T17:59:08Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - Communication-Efficient TeraByte-Scale Model Training Framework for
Online Advertising [32.5337643852876]
CTR(Click-Through Rate)予測は、オンライン広告業界において重要な要素である。
大規模な広告モデルのための既存のGPUトレーニングにおける2つの大きな課題を特定します。
ハードウェアトポロジをアルゴリズム設計に結合するハードウェア対応トレーニングワークフローを提案する。
論文 参考訳(メタデータ) (2022-01-05T18:09:11Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Hardware-efficient Residual Networks for FPGAs [2.025761610861237]
残留ネットワーク(ResNets)は、トレーニング収束を改善するために、ネットワーク内のスキップ接続を使用する。
スキップ接続はResNetのハードウェア実装に課題をもたらす。
本稿では,ResNetのスキップ接続を段階的に除去する学習手法を提案する。
論文 参考訳(メタデータ) (2021-02-02T06:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。