論文の概要: AttentionLite: Towards Efficient Self-Attention Models for Vision
- arxiv url: http://arxiv.org/abs/2101.05216v1
- Date: Mon, 21 Dec 2020 17:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 06:42:20.857166
- Title: AttentionLite: Towards Efficient Self-Attention Models for Vision
- Title(参考訳): AttentionLite: ビジョンのための効率的な自己注意モデルを目指して
- Authors: Souvik Kundu, Sairam Sundaresan
- Abstract要約: 本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。
計算量の多い教師から知識を同時蒸留でき、同時に学生モデルを1回の訓練パスで刈り取ることができる。
- 参考スコア(独自算出の注目度): 9.957033392865982
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel framework for producing a class of parameter and compute
efficient models called AttentionLitesuitable for resource-constrained
applications. Prior work has primarily focused on optimizing models either via
knowledge distillation or pruning. In addition to fusing these two mechanisms,
our joint optimization framework also leverages recent advances in
self-attention as a substitute for convolutions. We can simultaneously distill
knowledge from a compute-heavy teacher while also pruning the student model in
a single pass of training thereby reducing training and fine-tuning times
considerably. We evaluate the merits of our proposed approach on the CIFAR-10,
CIFAR-100, and Tiny-ImageNet datasets. Not only do our AttentionLite models
significantly outperform their unoptimized counterparts in accuracy, we find
that in some cases, that they perform almost as well as their compute-heavy
teachers while consuming only a fraction of the parameters and FLOPs.
Concretely, AttentionLite models can achieve upto30x parameter efficiency and
2x computation efficiency with no significant accuracy drop compared to their
teacher.
- Abstract(参考訳): 本稿では,リソース制約のあるアプリケーションに対して,パラメータのクラスを生成・計算するための新しいフレームワークである attentionliteable を提案する。
先行研究は主に、知識蒸留または刈り取りによるモデルの最適化に重点を置いてきた。
これら2つの機構を融合することに加えて, 共用最適化フレームワークでは, 畳み込みの代用として近年の自己着脱の進歩も活用している。
計算量の多い教師から知識を同時に蒸留すると同時に,学生モデルを1パスの訓練で刈り込み,トレーニングや微調整の時間を大幅に短縮する。
CIFAR-10, CIFAR-100, Tiny-ImageNetデータセットに対する提案手法の有効性を評価する。
アテンションライトモデルは、最適化されていないモデルの精度を大幅に上回っているだけでなく、一部のパラメータとフラップを消費しながら、計算量の多い先生とほぼ同等の性能を発揮する場合もあります。
具体的には、AttentionLiteモデルは教師に比べて精度が低下することなく、最大30倍のパラメータ効率と2倍の計算効率を達成することができる。
関連論文リスト
- Over-parameterized Student Model via Tensor Decomposition Boosted Knowledge Distillation [10.48108719012248]
我々は、より大規模な教師モデルを模倣するために、コンパクトな学生モデルを訓練する知識蒸留(KD)に焦点を当てる。
これまでの作業の多くとは対照的に、トレーニング中の学生モデルのパラメータをスケールアップする。
論文 参考訳(メタデータ) (2024-11-10T12:40:59Z) - Efficient Deep Learning Board: Training Feedback Is Not All You Need [28.910266386748525]
自動性能予測とコンポーネントレコメンデーションのための革新的なディープラーニングボードであるEfficientDLを提案する。
トレーニングのフィードバックがない魔法は、提案した包括的で多次元できめ細かいシステムコンポーネントデータセットから来ています。
例えば、EfficientDLはResNet50、MobileNetV3、EfficientNet-B0、MaxViT-T、Swin-B、DaViT-Tといった主流モデルとシームレスに動作する。
論文 参考訳(メタデータ) (2024-10-17T14:43:34Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Towards Compute-Optimal Transfer Learning [82.88829463290041]
我々は、事前訓練されたモデルのゼロショット構造化プルーニングにより、性能を最小限に抑えて計算効率を向上させることができると主張している。
その結果,事前訓練されたモデルの畳み込み畳み込みフィルタは,低計算条件下で20%以上の性能向上をもたらす可能性が示唆された。
論文 参考訳(メタデータ) (2023-04-25T21:49:09Z) - Meta-Ensemble Parameter Learning [35.6391802164328]
本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。
WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
論文 参考訳(メタデータ) (2022-10-05T00:47:24Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。