Fugu-MT 論文翻訳(概要): Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training

論文の概要: Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training

arxiv url: http://arxiv.org/abs/2106.03640v1
Date: Mon, 7 Jun 2021 14:10:52 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-09 03:53:59.096791
Title: Making EfficientNet More Efficient: Exploring Batch-Independent Normalization, Group Convolutions and Reduced Resolution Training
Title（参考訳）: efficientnetをより効率的にする:バッチ独立正規化、グループ畳み込み、解像度の低減
Authors: Dominic Masters, Antoine Labatie, Zach Eaton-Rosen and Carlo Luschi
Abstract要約: 我々は、新しいクラスのアクセラレーターであるGraphcore IPU上で、最先端のEfficientNetモデルの実用効率を改善することに重点を置いている。 i)グループ畳み込みに深い畳み込みを一般化すること、(ii)バッチ正規化性能とバッチ非依存統計量とを一致させるためにプロキシ正規化アクティベーションを追加すること、(iii)トレーニング解像度を下げることによる計算の削減と、高解像度で安価に微調整を行うことにより、このモデル群を拡張した。
参考スコア（独自算出の注目度）: 8.411385346896413
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Much recent research has been dedicated to improving the efficiency of training and inference for image classification. This effort has commonly focused on explicitly improving theoretical efficiency, often measured as ImageNet validation accuracy per FLOP. These theoretical savings have, however, proven challenging to achieve in practice, particularly on high-performance training accelerators. In this work, we focus on improving the practical efficiency of the state-of-the-art EfficientNet models on a new class of accelerator, the Graphcore IPU. We do this by extending this family of models in the following ways: (i) generalising depthwise convolutions to group convolutions; (ii) adding proxy-normalized activations to match batch normalization performance with batch-independent statistics; (iii) reducing compute by lowering the training resolution and inexpensively fine-tuning at higher resolution. We find that these three methods improve the practical efficiency for both training and inference. Our code will be made available online.
Abstract（参考訳）: 最近の研究は、画像分類の訓練と推論の効率を改善することに注力している。この取り組みは一般的に、FLOP当たりのImageNetバリデーション精度として測定される理論的効率の向上に重点を置いている。しかし、これらの理論的な節約は、特にハイパフォーマンスなトレーニングアクセラレーターにおいて、実際に達成することが困難であることが証明されている。本研究では,最新技術であるEfficientNetモデルの,新しいクラスのアクセラレータであるGraphcore IPU上での実用効率の向上に焦点をあてる。 i) 集団畳み込みへの深さ方向の畳み込みを一般化する; (ii) バッチ正規化性能とバッチ非依存統計とをマッチングするためにプロキシ正規化アクティベーションを追加する; (iii) トレーニング解像度を下げて計算量を削減し、より高解像度で安価に微調整する。これら3つの手法が,訓練と推論の両面で実用的効率を向上させることを見出した。私たちのコードはオンラインで利用できます。

関連論文リスト

Predictive Scaling Laws for Efficient GRPO Training of Large Reasoning Models [0.41942958779358663]
本稿では,動的トレーニングをモデル化し,資源利用の最適化を支援する予測フレームワークを提案する。モデルサイズ,初期性能,トレーニング進捗に基づく経験的スケーリング法則を導出する。特定のエポック数を超えるトレーニングでは、ほとんど利益が得られず、早い段階で停止することで、パフォーマンスを犠牲にすることなく計算を大幅に削減できることが示唆されている。
論文参考訳（メタデータ） (2025-07-24T01:09:25Z)
Afterburner: Reinforcement Learning Facilitates Self-Improving Code Efficiency Optimization [46.33639431414019]
大規模言語モデルは機能的に正しいソリューションを生成するが、コード効率が不足することが多い。この問題に対処する新しいテストタイム反復最適化フレームワークを導入する。
論文参考訳（メタデータ） (2025-05-29T12:14:29Z)
Leveraging Stochastic Depth Training for Adaptive Inference [1.996143466020199]
本稿では,ゼロオーバーヘッド,単一モデル,時間予測可能な推論を用いた適応推論の簡易かつ効果的な代替手法を提案する。従来のResNetと比較して、精度0.71%の低下で最大2倍の効率向上を実現した。
論文参考訳（メタデータ） (2025-05-23T08:36:56Z)
Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文参考訳（メタデータ） (2025-01-26T03:22:22Z)
TREAD: Token Routing for Efficient Architecture-agnostic Diffusion Training [20.712053538676116]
拡散モデルは通常、サンプルの非効率性と高いトレーニングコストに悩まされる。 TREADは計算コストを削減し、同時にモデル性能を向上することを示す。ガイド付きで2.09、ガイドなしで3.93の競合FIDを達成する。
論文参考訳（メタデータ） (2025-01-08T18:38:25Z)
Numerical Pruning for Efficient Autoregressive Models [87.56342118369123]
本稿では,デコーダのみを用いた変圧器を用いた自己回帰モデルの圧縮に着目する。具体的には,ニュートン法とモジュールの数値スコアをそれぞれ計算する学習自由プルーニング法を提案する。提案手法の有効性を検証するため,理論的支援と広範囲な実験を行った。
論文参考訳（メタデータ） (2024-12-17T01:09:23Z)
PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。 PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文参考訳（メタデータ） (2024-03-14T09:06:49Z)
Accelerating Neural Network Training: A Brief Review [0.5825410941577593]
本研究では,ディープニューラルネットワーク(DNN)の学習過程を高速化するための革新的なアプローチについて検討する。この研究は、グラディエント累積(GA)、自動混合精度(AMP)、ピンメモリ(PM)などの高度な手法を利用する。
論文参考訳（メタデータ） (2023-12-15T18:43:45Z)
No Train No Gain: Revisiting Efficient Training Algorithms For Transformer-based Language Models [31.080446886440757]
本稿では、動的アーキテクチャ(レイヤの積み重ね、ドロップ)、バッチ選択(選択的バックプロップ、ROH損失)、効率的なレイヤ(Lion, Sophia)の3つのカテゴリを再検討する。トレーニング,検証,ダウンストリームのゲインが,完全に遅延した学習率のベースラインに比べて消失していることが分かりました。我々は、全ての計算時間を参照システム時間と呼ぶ参照マシンにマッピングすることで、任意の計算でマシンを実行できる評価プロトコルを定義した。
論文参考訳（メタデータ） (2023-07-12T20:10:14Z)
Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文参考訳（メタデータ） (2023-04-25T21:49:09Z)
Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文参考訳（メタデータ） (2022-03-23T06:24:31Z)
Pruning Convolutional Filters using Batch Bridgeout [14.677724755838556]
最先端のコンピュータビジョンモデルでは、トレーニングセットに適合するために必要なパラメータ数がはるかに多いため、能力が急速に向上している。これにより最適化と一般化性能が向上する。推論コストを削減するために、トレーニングされたニューラルネットワークの畳み込みフィルタを切断することで、推論中の実行時のメモリと計算要求を削減できる。本稿では,ニューラルネットワークの性能低下を最小限に抑え,効率よく刈り取ることができるようにトレーニングするために,スパシティ誘導正規化スキームであるBatch Bridgeoutを提案する。
論文参考訳（メタデータ） (2020-09-23T01:51:47Z)
Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文参考訳（メタデータ） (2020-08-24T13:23:02Z)
Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文参考訳（メタデータ） (2020-07-13T16:56:27Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。