Fugu-MT 論文翻訳(概要): LR-CNN: Lightweight Row-centric Convolutional Neural Network Training for Memory Reduction

論文の概要: LR-CNN: Lightweight Row-centric Convolutional Neural Network Training for Memory Reduction

arxiv url: http://arxiv.org/abs/2401.11471v1
Date: Sun, 21 Jan 2024 12:19:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 16:21:57.872206
Title: LR-CNN: Lightweight Row-centric Convolutional Neural Network Training for Memory Reduction
Title（参考訳）: LR-CNN:メモリ削減のための軽量ロー中心畳み込みニューラルネットワークトレーニング
Authors: Zhigang Wang, Hangyu Yang, Ning Wang, Chuanfei Xu, Jie Nie, Zhiqiang Wei, Yu Gu, Ge Yu
Abstract要約: 多層構造を持つ畳み込みニューラルネットワークは急速に進歩している。現在の取り組みは、追加のハードウェアコストによる外部補助ソリューションによるボトルネックの緩和と、潜在的な精度のペナルティによる内部修正によって緩和されている。従来のレイヤ・バイ・レイヤ(カラム)データフロールールを破ります。現在では,すべての畳み込みレイヤを通じて,新たな操作が行に再編成されています。この軽量な設計により、ほとんどの中間データを精度を損なうことなく取り除くことができる。
参考スコア（独自算出の注目度）: 21.388549904063538
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the last decade, Convolutional Neural Network with a multi-layer architecture has advanced rapidly. However, training its complex network is very space-consuming, since a lot of intermediate data are preserved across layers, especially when processing high-dimension inputs with a big batch size. That poses great challenges to the limited memory capacity of current accelerators (e.g., GPUs). Existing efforts mitigate such bottleneck by external auxiliary solutions with additional hardware costs, and internal modifications with potential accuracy penalty. Differently, our analysis reveals that computations intra- and inter-layers exhibit the spatial-temporal weak dependency and even complete independency features. That inspires us to break the traditional layer-by-layer (column) dataflow rule. Now operations are novelly re-organized into rows throughout all convolution layers. This lightweight design allows a majority of intermediate data to be removed without any loss of accuracy. We particularly study the weak dependency between two consecutive rows. For the resulting skewed memory consumption, we give two solutions with different favorite scenarios. Evaluations on two representative networks confirm the effectiveness. We also validate that our middle dataflow optimization can be smoothly embraced by existing works for better memory reduction.
Abstract（参考訳）: 過去10年間で、多層アーキテクチャによる畳み込みニューラルネットワークは急速に進歩した。しかし、特に大きなバッチサイズで高次元入力を処理する場合、多くの中間データが層間で保存されるため、複雑なネットワークのトレーニングは非常にスペースを消費する。これにより、現在のアクセラレータ(GPUなど)のメモリ容量の制限に大きな課題が生じる。既存の取り組みは、追加のハードウェアコストによる外部補助ソリューションによるボトルネックの緩和と、潜在的な精度のペナルティによる内部修正によって緩和されている。異なる解析結果から, 層内および層間計算は空間的・時間的弱依存性を示し, 完全な独立性を示した。これは従来のレイヤバイレイヤ(カラム)データフロールールを破るきっかけになります。現在、操作は畳み込み層全体にわたって新規に行に再編成されている。この軽量な設計により、ほとんどの中間データを精度を損なうことなく取り除くことができる。特に2つの連続する行間の弱い依存について研究する。結果として発生するスキューメモリ消費に対して、異なるシナリオで2つのソリューションを提供する。 2つの代表ネットワークの評価により有効性が確認された。また、中間データフロー最適化が、メモリ削減のために既存の作業によってスムーズに取り入れられることを検証します。

関連論文リスト

Optimal Gradient Checkpointing for Sparse and Recurrent Architectures using Off-Chip Memory [0.8321953606016751]
本稿では,スパースRNNとスパイキングニューラルネットワークの一般クラスに適したメモリ効率の高い勾配チェックポイント戦略を提案する。再計算のオーバーヘッドを最小限に抑えながら、ローカルメモリリソースの使用を最適化し、Double Checkpointingが最も効果的な方法であることが判明した。
論文参考訳（メタデータ） (2024-12-16T14:23:31Z)
Parallel Multi-path Feed Forward Neural Networks (PMFFNN) for Long Columnar Datasets: A Novel Approach to Complexity Reduction [0.0]
我々はPMFFNN(Parallel Multi-path Feed Forward Neural Networks)と呼ばれる新しいアーキテクチャを導入する。そうすることで、アーキテクチャは各機能のサブセットに注目が集まることを保証します。 PMFFNNは従来のFFNNや1D CNNよりも優れており、大規模データ管理に最適化されたソリューションを提供する。
論文参考訳（メタデータ） (2024-11-09T00:48:32Z)
Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文参考訳（メタデータ） (2024-07-12T17:37:49Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
Dr$^2$Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning [81.0108753452546]
本稿では,メモリ消費を大幅に削減した事前学習モデルを微調整するために,動的可逆2次元ネットワーク(Dr$2$Net)を提案する。 Dr$2$Netは2種類の残差接続を含み、1つは事前訓練されたモデルの残差構造を維持し、もう1つはネットワークを可逆的にしている。 Dr$2$Netは従来の微調整に匹敵する性能を持つが、メモリ使用量は大幅に少ない。
論文参考訳（メタデータ） (2024-01-08T18:59:31Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
Dynamic Split Computing for Efficient Deep Edge Intelligence [78.4233915447056]
通信チャネルの状態に基づいて最適な分割位置を動的に選択する動的分割計算を導入する。本研究では,データレートとサーバ負荷が時間とともに変化するエッジコンピューティング環境において,動的スプリットコンピューティングが高速な推論を実現することを示す。
論文参考訳（メタデータ） (2022-05-23T12:35:18Z)
MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文参考訳（メタデータ） (2021-10-28T17:58:45Z)
Towards Memory-Efficient Neural Networks via Multi-Level in situ Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文参考訳（メタデータ） (2021-08-25T18:50:24Z)
MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文参考訳（メタデータ） (2021-07-14T19:45:49Z)
Non-Gradient Manifold Neural Network [79.44066256794187]
ディープニューラルネットワーク(DNN)は通常、勾配降下による最適化に数千のイテレーションを要します。非次最適化に基づく新しい多様体ニューラルネットワークを提案する。
論文参考訳（メタデータ） (2021-06-15T06:39:13Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。