論文の概要: Applying Graph Explanation to Operator Fusion
- arxiv url: http://arxiv.org/abs/2501.00636v1
- Date: Tue, 31 Dec 2024 20:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-05 17:15:48.547713
- Title: Applying Graph Explanation to Operator Fusion
- Title(参考訳): グラフ記述を演算子融合に適用する
- Authors: Keith G. Mills, Muhammad Fetrat Qharabagh, Weichen Qiu, Fred X. Han, Mohammad Salameh, Wei Lu, Shangling Jui, Di Niu,
- Abstract要約: Fusionは、アクセラレータのオンチップバッファとDRAM間のデータトランザクションを削減することで、推論コストの削減を目指している。
これは、畳み込みやアクティベーションのような複数の操作をグループ化して、単一の実行ユニット – 融合グループ – にまとめることで実現される。
最適群を見つけることは、従来の探索アルゴリズムを妨害し、堅牢なアプローチを要求する、無効な解が存在するという複雑な問題である。
- 参考スコア(独自算出の注目度): 25.28963706415794
- License:
- Abstract: Layer fusion techniques are critical to improving the inference efficiency of deep neural networks (DNN) for deployment. Fusion aims to lower inference costs by reducing data transactions between an accelerator's on-chip buffer and DRAM. This is accomplished by grouped execution of multiple operations like convolution and activations together into single execution units - fusion groups. However, on-chip buffer capacity limits fusion group size and optimizing fusion on whole DNNs requires partitioning into multiple fusion groups. Finding the optimal groups is a complex problem where the presence of invalid solutions hampers traditional search algorithms and demands robust approaches. In this paper we incorporate Explainable AI, specifically Graph Explanation Techniques (GET), into layer fusion. Given an invalid fusion group, we identify the operations most responsible for group invalidity, then use this knowledge to recursively split the original fusion group via a greedy tree-based algorithm to minimize DRAM access. We pair our scheme with common algorithms and optimize DNNs on two types of layer fusion: Line-Buffer Depth First (LBDF) and Branch Requirement Reduction (BRR). Experiments demonstrate the efficacy of our scheme on several popular and classical convolutional neural networks like ResNets and MobileNets. Our scheme achieves over 20% DRAM Access reduction on EfficientNet-B3.
- Abstract(参考訳): 層融合技術は、デプロイのためのディープニューラルネットワーク(DNN)の推論効率を改善するために重要である。
Fusionは、アクセラレータのオンチップバッファとDRAM間のデータトランザクションを削減することで、推論コストの削減を目指している。
これは、畳み込みやアクティベーションのような複数の操作をグループ化して、単一の実行ユニット – 融合グループ – にまとめることで実現される。
しかし、オンチップバッファ容量は核融合グループのサイズを制限し、DNN全体の核融合を最適化するには複数の核融合グループに分割する必要がある。
最適群を見つけることは、従来の探索アルゴリズムを妨害し、堅牢なアプローチを要求する、無効な解が存在するという複雑な問題である。
本稿では、説明可能なAI、特にグラフ説明技法(GET)を層融合に組み込む。
無効な融合群が与えられた後、この知識を用いて元の融合群を再帰的に分割してDRAMアクセスを最小限に抑える。
提案手法を共通アルゴリズムと組み合わせ,LBDF(Line-Buffer Depth First)とBRR(Branch Requirement Reduction)の2種類の層融合でDNNを最適化する。
実験では、ResNetsやMobileNetsのような、ポピュラーで古典的な畳み込みニューラルネットワーク上で、我々のスキームの有効性を実証した。
提案手法は,効率の良いNet-B3上で20%以上のDRAMアクセス削減を実現する。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - LinGCN: Structural Linearized Graph Convolutional Network for
Homomorphically Encrypted Inference [19.5669231249754]
本稿では,乗算深度を低減し,HEに基づくGCN推論の性能を最適化するLinGCNを提案する。
注目すべきは、LinGCNはCryptoGCNと比較して14.2倍のレイテンシ向上を実現し、推論精度は75%、乗算深度は顕著に減少することである。
論文 参考訳(メタデータ) (2023-09-25T17:56:54Z) - DNNFusion: Accelerating Deep Neural Networks Execution with Advanced
Operator Fusion [28.03712082540713]
本稿では, DNNFusion と呼ばれる, 新規かつ広範囲なループ融合フレームワークを提案する。
DNNFusionは最大8.8倍の融合機会を示し、9.3倍のスピードアップで最先端の4つのDNN実行フレームワークを上回っている。
メモリ要求の削減とスピードアップにより、モバイルデバイス上で多くのターゲットモデルを実行できるようになり、リアルタイムアプリケーションの一部にもなれる。
論文 参考訳(メタデータ) (2021-08-30T16:11:38Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - JUMBO: Scalable Multi-task Bayesian Optimization using Offline Data [86.8949732640035]
追加データをクエリすることで制限をサイドステップするMBOアルゴリズムであるJUMBOを提案する。
GP-UCBに類似した条件下では, 応答が得られないことを示す。
実世界の2つの最適化問題に対する既存手法に対する性能改善を実証的に示す。
論文 参考訳(メタデータ) (2021-06-02T05:03:38Z) - Partitioning sparse deep neural networks for scalable training and
inference [8.282177703075453]
最先端のディープニューラルネットワーク(DNN)には、計算とデータ管理の大幅な要件がある。
スパシフィケーション法とプルーニング法は,DNNの大量の接続を除去するのに有効であることが示されている。
その結果得られたスパースネットワークは、ディープラーニングにおけるトレーニングと推論の計算効率をさらに向上するためのユニークな課題を提示する。
論文 参考訳(メタデータ) (2021-04-23T20:05:52Z) - Improved Branch and Bound for Neural Network Verification via Lagrangian
Decomposition [161.09660864941603]
ニューラルネットワークの入出力特性を公式に証明するためのブランチとバウンド(BaB)アルゴリズムのスケーラビリティを改善します。
活性化に基づく新しい分岐戦略とBaBフレームワークであるブランチとデュアルネットワーク境界(BaDNB)を提案する。
BaDNBは、従来の完全検証システムを大きなマージンで上回り、対数特性で平均検証時間を最大50倍に削減した。
論文 参考訳(メタデータ) (2021-04-14T09:22:42Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z) - Lagrangian Decomposition for Neural Network Verification [148.0448557991349]
ニューラルネットワーク検証の基本的なコンポーネントは、出力が取ることのできる値のバウンダリの計算である。
ラグランジアン分解に基づく新しい手法を提案する。
ランニングタイムのごく一部で、既成の解法に匹敵するバウンダリが得られることを示す。
論文 参考訳(メタデータ) (2020-02-24T17:55:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。