論文の概要: Tailor: Altering Skip Connections for Resource-Efficient Inference
- arxiv url: http://arxiv.org/abs/2301.07247v2
- Date: Fri, 15 Sep 2023 22:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 01:00:36.349793
- Title: Tailor: Altering Skip Connections for Resource-Efficient Inference
- Title(参考訳): Tailor: リソース効率の良い推論のためのスキップ接続の変更
- Authors: Olivia Weng, Gabriel Marcano, Vladimir Loncar, Alireza Khodamoradi,
Nojan Sheybani, Andres Meza, Farinaz Koushanfar, Kristof Denolf, Javier
Mauricio Duarte, Ryan Kastner
- Abstract要約: ハードウェア・ソフトウェア・コードサイン・アプローチに取り組み、スキップ接続をハードウェアに最適化できることが示される。
ハードウェアを意識したトレーニングアルゴリズムが、ハードウェアコストを削減するために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮するコードサインツールであるTailorを紹介した。
- 参考スコア(独自算出の注目度): 15.72369066115206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep neural networks use skip connections to improve training convergence.
However, these skip connections are costly in hardware, requiring extra buffers
and increasing on- and off-chip memory utilization and bandwidth requirements.
In this paper, we show that skip connections can be optimized for hardware when
tackled with a hardware-software codesign approach. We argue that while a
network's skip connections are needed for the network to learn, they can later
be removed or shortened to provide a more hardware efficient implementation
with minimal to no accuracy loss. We introduce Tailor, a codesign tool whose
hardware-aware training algorithm gradually removes or shortens a fully trained
network's skip connections to lower their hardware cost. Tailor improves
resource utilization by up to 34% for BRAMs, 13% for FFs, and 16% for LUTs for
on-chip, dataflow-style architectures. Tailor increases performance by 30% and
reduces memory bandwidth by 45% for a 2D processing element array architecture.
- Abstract(参考訳): ディープニューラルネットワークは、トレーニング収束を改善するためにスキップ接続を使用する。
しかし、これらのスキップ接続はハードウェアでコストがかかり、追加のバッファが必要となり、オンチップとオフチップのメモリ使用量と帯域幅要件が増加する。
本稿では,ハードウェア・ソフトウェア・コード署名アプローチに取り組み,スキップ接続をハードウェアに最適化できることを示す。
ネットワークが学習するためにはネットワークのスキップ接続が必要であるが、その接続は後に削除または短縮され、精度の低下を最小限に抑えることなく、よりハードウェア効率の良い実装を提供することができる。
ハードウェアアウェアトレーニングアルゴリズムは、ハードウェアコストを下げるために、完全にトレーニングされたネットワークのスキップ接続を徐々に削除または短縮する。
Tailorは、BRAMで最大34%、FFで13%、オンチップでデータフロースタイルのアーキテクチャで16%のリソース利用を改善する。
Tailorはパフォーマンスを30%向上し、2D処理要素配列アーキテクチャではメモリ帯域幅を45%削減する。
関連論文リスト
- Dynamic Sparsity Is Channel-Level Sparsity Learner [82.26033914968797]
本稿では,チャネル対応動的スパース(Chase)を,アドホックな操作を伴わずに,エンドツーエンドのトレーニングプロセスとして提案する。
Chaseは、イメージネット上のResNet-50と精度を損なうことなく、一般的なGPUデバイスで1.7Xの推論スループットを高速化する。
論文 参考訳(メタデータ) (2023-05-30T23:33:45Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [54.69231761789718]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Faster Deep Reinforcement Learning with Slower Online Network [90.34900072689618]
DQNとRainbowという2つの人気のあるディープ強化学習アルゴリズムに、オンラインネットワークをターゲットネットワークの近くに留まらせるインセンティブを与えるアップデートを与えました。
その結果、DQN ProとRainbow Proと呼ばれるエージェントは、Atariベンチマークで元のエージェントよりも大幅に性能が向上した。
論文 参考訳(メタデータ) (2021-12-10T22:07:06Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Layered gradient accumulation and modular pipeline parallelism: fast and
efficient training of large language models [0.0]
分散トレーニングのさまざまな構成について、可能な限り最短のトレーニング時間を分析します。
本稿では,最短トレーニング時間を半減する2つの新しい手法,テキスト層勾配蓄積法とテキストモジュールパイプライン並列化法を提案する。
論文 参考訳(メタデータ) (2021-06-04T19:21:49Z) - Enabling Incremental Training with Forward Pass for Edge Devices [0.0]
進化戦略(ES)を用いてネットワークを部分的に再トレーニングし,エラー発生後に変更に適応し,回復できるようにする手法を提案する。
この技術は、バックプロパゲーションを必要とせず、最小限のリソースオーバーヘッドで推論専用ハードウェアのトレーニングを可能にする。
論文 参考訳(メタデータ) (2021-03-25T17:43:04Z) - Hardware-efficient Residual Networks for FPGAs [2.025761610861237]
残留ネットワーク(ResNets)は、トレーニング収束を改善するために、ネットワーク内のスキップ接続を使用する。
スキップ接続はResNetのハードウェア実装に課題をもたらす。
本稿では,ResNetのスキップ接続を段階的に除去する学習手法を提案する。
論文 参考訳(メタデータ) (2021-02-02T06:50:22Z) - Rapid Structural Pruning of Neural Networks with Set-based Task-Adaptive
Meta-Pruning [83.59005356327103]
既存のプルーニング技術に共通する制限は、プルーニングの前に少なくとも1回はネットワークの事前トレーニングが必要であることである。
本稿では,ターゲットデータセットの関数としてプルーニングマスクを生成することにより,大規模な参照データセット上で事前訓練されたネットワークをタスク適応的にプルークするSTAMPを提案する。
ベンチマークデータセット上での最近の先進的なプルーニング手法に対するSTAMPの有効性を検証する。
論文 参考訳(メタデータ) (2020-06-22T10:57:43Z) - Dataflow Aware Mapping of Convolutional Neural Networks Onto Many-Core
Platforms With Network-on-Chip Interconnect [0.0764671395172401]
マシンインテリジェンス、特に畳み込みニューラルネットワーク(CNN)は、ここ数年で大きな研究領域となっている。
複数の同質なコアで構成される多コアプラットフォームは、データフローマッピングの労力の増大を犠牲にして、物理実装に関する制限を緩和することができる。
この作業は、最小限のランタイムと最小限のオフチップメモリアクセスに対して、最適化目標の異なるシングルコアレベルから始まる自動マッピング戦略を示す。
この戦略は、適切なマルチコアマッピング方式に拡張され、ネットワークオンチップ相互接続によるスケーラブルなシステムレベルシミュレーションを用いて評価される。
論文 参考訳(メタデータ) (2020-06-18T17:13:18Z) - Is Network the Bottleneck of Distributed Training? [36.925680383195356]
分散トレーニングのネットワーク性能を計測・解析するために,第1原理のアプローチを採用する。
ネットワークは低利用率で動作しており、ネットワークを十分に活用できれば、分散トレーニングは1に近いスケーリング係数を達成することができる。
論文 参考訳(メタデータ) (2020-06-17T19:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。