Fugu-MT 論文翻訳(概要): On the Efficiency of Convolutional Neural Networks

論文の概要: On the Efficiency of Convolutional Neural Networks

arxiv url: http://arxiv.org/abs/2404.03617v1
Date: Thu, 4 Apr 2024 17:39:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 13:52:39.000248
Title: On the Efficiency of Convolutional Neural Networks
Title（参考訳）: 畳み込みニューラルネットワークの効率性について
Authors: Andrew Lavin,
Abstract要約: ディープラーニングの研究者たちは、10年前に達成できなかった正確な結果を得るために畳み込みニューラルネットワーク(convnets)を使用してきた。計算機科学者は計算効率を主目的とする。余剰コストの精度は許容されない; アルゴリズムはその計算要求を最小化しなければならない。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Since the breakthrough performance of AlexNet in 2012, convolutional neural networks (convnets) have grown into extremely powerful vision models. Deep learning researchers have used convnets to produce accurate results that were unachievable a decade ago. Yet computer scientists make computational efficiency their primary objective. Accuracy with exorbitant cost is not acceptable; an algorithm must also minimize its computational requirements. Confronted with the daunting computation that convnets use, deep learning researchers also became interested in efficiency. Researchers applied tremendous effort to find the convnet architectures that have the greatest efficiency. However, skepticism grew among researchers and engineers alike about the relevance of arithmetic complexity. Contrary to the prevailing view that latency and arithmetic complexity are irreconcilable, a simple formula relates both through computational efficiency. This insight enabled us to co-optimize the separate factors that determine latency. We observed that the degenerate conv2d layers that produce the best accuracy-complexity trade-off also have low operational intensity. Therefore, kernels that implement these layers use significant memory resources. We solved this optimization problem with block-fusion kernels that implement all layers of a residual block, thereby creating temporal locality, avoiding communication, and reducing workspace size. Our ConvFirst model with block-fusion kernels ran approximately four times as fast as the ConvNeXt baseline with PyTorch Inductor, at equal accuracy on the ImageNet-1K classification task. Our unified approach to convnet efficiency envisions a new era of models and kernels that achieve greater accuracy at lower cost.
Abstract（参考訳）: 2012年のAlexNetのブレークスルー以降、畳み込みニューラルネットワーク(convnet)は、非常に強力なビジョンモデルへと成長してきた。深層学習の研究者たちは、10年前には不可能だった正確な結果を得るために、コンブネットを使ってきた。しかし、計算機科学者は計算効率を第一の目的としています。余剰コストの精度は許容されない; アルゴリズムはその計算要求を最小化しなければならない。深層学習の研究者は、コブネットが使用する膨大な計算と相まって、効率性にも関心を持つようになった。研究者たちは、最も効率のよいコンブネットアーキテクチャを見つけるために、多大な努力を払っています。しかし、研究者や技術者の間では、算術複雑性の関連性に関して懐疑論が高まった。レイテンシと算術の複雑さは相容れないという一般的な見方とは対照的に、単純な公式は計算効率によって関連付けられる。この洞察により、レイテンシを決定する別の要因を共同最適化することが可能になりました。また, 高い精度・複雑なトレードオフをもたらす縮退したconv2d層は, 操作強度が低いことも観察した。したがって、これらのレイヤを実装するカーネルは、重要なメモリリソースを使用する。我々は,残余ブロックのすべての層を実装し,時間的局所性を生成し,通信を回避し,ワークスペースサイズを小さくするブロック融合カーネルを用いて,この最適化問題を解決した。ブロック融合カーネルを用いたConvFirstモデルは,ImageNet-1K分類タスクにおいて,PyTorchインダクタを用いたConvNeXtベースラインの約4倍の速度で動作した。コンブネット効率に対する我々の統一的なアプローチは、より低コストでより精度の高いモデルとカーネルの新しい時代を思い描いている。

関連論文リスト

MesaNet: Sequence Modeling by Locally Optimal Test-Time Training [67.45211108321203]
我々は,最近提案されたMesa層の数値的に安定かつチャンクワイズ可能な並列化版を導入する。テストタイムの最適トレーニングにより、従来のRNNよりも言語モデリングの難易度が低く、ダウンストリームベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2025-06-05T16:50:23Z)
Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文参考訳（メタデータ） (2025-02-03T13:09:21Z)
Resistive Memory-based Neural Differential Equation Solver for Score-based Diffusion Model [55.116403765330084]
スコアベースの拡散のような現在のAIGC法は、迅速性と効率性の点で依然として不足している。スコアベース拡散のための時間連続型およびアナログ型インメモリ型ニューラル微分方程式解法を提案する。我々は180nmの抵抗型メモリインメモリ・コンピューティング・マクロを用いて,我々の解を実験的に検証した。
論文参考訳（メタデータ） (2024-04-08T16:34:35Z)
Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。 3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文参考訳（メタデータ） (2023-08-30T10:57:41Z)
A Generalization of Continuous Relaxation in Structured Pruning [0.3277163122167434]
トレンドは、パラメータが増加するより深い、より大きなニューラルネットワークが、より小さなニューラルネットワークよりも高い精度を達成することを示している。ネットワーク拡張, プルーニング, サブネットワーク崩壊, 削除のためのアルゴリズムを用いて, 構造化プルーニングを一般化する。結果のCNNは計算コストのかかるスパース行列演算を使わずにGPUハードウェア上で効率的に実行される。
論文参考訳（メタデータ） (2023-08-28T14:19:13Z)
Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文参考訳（メタデータ） (2023-06-14T01:24:42Z)
Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文参考訳（メタデータ） (2022-12-29T15:10:59Z)
Low-bit Shift Network for End-to-End Spoken Language Understanding [7.851607739211987]
本稿では,連続パラメータを低ビットの2値に量子化する2乗量子化法を提案する。これにより、高価な乗算演算を除去し、低ビット重みを使用すれば計算の複雑さを低減できる。
論文参考訳（メタデータ） (2022-07-15T14:34:22Z)
Neural network relief: a pruning algorithm based on neural activity [47.57448823030151]
重要でない接続を非活性化する簡易な重要スコア計量を提案する。 MNIST上でのLeNetアーキテクチャの性能に匹敵する性能を実現する。このアルゴリズムは、現在のハードウェアとソフトウェアの実装を考えるとき、FLOPを最小化するように設計されていない。
論文参考訳（メタデータ） (2021-09-22T15:33:49Z)
From DNNs to GANs: Review of efficient hardware architectures for deep learning [0.0]
ニューラルネットワークとディープラーニングが現在の研究パラダイムに影響を与え始めている。 DSPプロセッサは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成的敵ネットワーク操作を実行することができない。異なるアルゴリズムは、ニューラルネットワーク、アクティベーション機能、畳み込みニューラルネットワーク、生成対向ネットワークにおける高速なパフォーマンスに適合するDSPプロセッサを設計するために適合している。
論文参考訳（メタデータ） (2021-06-06T13:23:06Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)
Computation on Sparse Neural Networks: an Inspiration for Future Hardware [20.131626638342706]
スパースニューラルネットワークの計算に関する研究の現状について述べる。本稿では,重みパラメータの数とモデル構造に影響されるモデルの精度について論じる。実際に複雑な問題に対して、重みが支配する領域において、大小のモデルを探索することはより有益であることを示す。
論文参考訳（メタデータ） (2020-04-24T19:13:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。