論文の概要: Towards Compute-Optimal Transfer Learning
- arxiv url: http://arxiv.org/abs/2304.13164v1
- Date: Tue, 25 Apr 2023 21:49:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 16:13:53.154558
- Title: Towards Compute-Optimal Transfer Learning
- Title(参考訳): 計算最適転送学習に向けて
- Authors: Massimo Caccia, Alexandre Galashov, Arthur Douillard, Amal
Rannen-Triki, Dushyant Rao, Michela Paganini, Laurent Charlin, Marc'Aurelio
Ranzato, Razvan Pascanu
- Abstract要約: 我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
- 参考スコア(独自算出の注目度): 82.88829463290041
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The field of transfer learning is undergoing a significant shift with the
introduction of large pretrained models which have demonstrated strong
adaptability to a variety of downstream tasks. However, the high computational
and memory requirements to finetune or use these models can be a hindrance to
their widespread use. In this study, we present a solution to this issue by
proposing a simple yet effective way to trade computational efficiency for
asymptotic performance which we define as the performance a learning algorithm
achieves as compute tends to infinity. Specifically, we argue that zero-shot
structured pruning of pretrained models allows them to increase compute
efficiency with minimal reduction in performance. We evaluate our method on the
Nevis'22 continual learning benchmark that offers a diverse set of transfer
scenarios. Our results show that pruning convolutional filters of pretrained
models can lead to more than 20% performance improvement in low computational
regimes.
- Abstract(参考訳): 転送学習の分野は、様々な下流タスクに強い適応性を示す大規模な事前訓練モデルの導入によって、大きな変化を遂げている。
しかし、これらのモデルを微調整または使用するための高い計算およびメモリ要求は、それらが広く使われるのを妨げる可能性がある。
本研究では,学習アルゴリズムが計算の無限大化の傾向として達成する性能として定義する漸近的性能の計算効率を,単純かつ効果的に取引する方法を提案する。
具体的には、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると論じる。
提案手法は,様々なトランスファーシナリオを提供するnevis'22連続学習ベンチマークを用いて評価する。
その結果, プリトレーニングモデルの畳み込みフィルタは, 低計算環境では20%以上の性能向上をもたらすことがわかった。
関連論文リスト
- Efficiency optimization of large-scale language models based on deep learning in natural language processing tasks [6.596361762662328]
大規模言語モデルの内部構造と操作機構を理論的に解析する。
我々は、適応最適化アルゴリズム(AdamWなど)、大規模並列計算技術、混合精度訓練戦略の寄与を評価した。
論文 参考訳(メタデータ) (2024-05-20T00:10:00Z) - Navigating Scaling Laws: Compute Optimality in Adaptive Model Training [39.96209967632896]
近年、ディープラーニングの最先端は、大量のデータに基づいて事前訓練された非常に大きなモデルによって支配されている。
適応的な'モデル、すなわちトレーニング中にその形状を変えることができるモデルを可能にすることで、最適性の概念を拡張します。
論文 参考訳(メタデータ) (2023-11-06T16:20:28Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Recommendation Unlearning via Influence Function [42.4931807753579]
本稿では,新しいインフルエンス関数に基づく推薦アンラーニング(IFRU, Recommendation Unlearning)フレームワークを提案する。
IFRUは、フルリトレーニングに匹敵するレコメンデーションパフォーマンスを持つリトレーニングベースの手法と比較して、250倍以上のアクセラレーションを実現している。
論文 参考訳(メタデータ) (2023-07-05T09:42:51Z) - Improved Algorithms for Neural Active Learning [74.89097665112621]
非パラメトリックストリーミング設定のためのニューラルネットワーク(NN)ベースの能動学習アルゴリズムの理論的および経験的性能を改善する。
本研究では,SOTA(State-of-the-art (State-the-art)) 関連研究で使用されるものよりも,アクティブラーニングに適する人口減少を最小化することにより,2つの後悔の指標を導入する。
論文 参考訳(メタデータ) (2022-10-02T05:03:38Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Making EfficientNet More Efficient: Exploring Batch-Independent
Normalization, Group Convolutions and Reduced Resolution Training [8.411385346896413]
我々は、新しいクラスのアクセラレーターであるGraphcore IPU上で、最先端のEfficientNetモデルの実用効率を改善することに重点を置いている。
i)グループ畳み込みに深い畳み込みを一般化すること、(ii)バッチ正規化性能とバッチ非依存統計量とを一致させるためにプロキシ正規化アクティベーションを追加すること、(iii)トレーニング解像度を下げることによる計算の削減と、高解像度で安価に微調整を行うことにより、このモデル群を拡張した。
論文 参考訳(メタデータ) (2021-06-07T14:10:52Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。