論文の概要: Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge
Transfer
- arxiv url: http://arxiv.org/abs/2010.04516v1
- Date: Fri, 9 Oct 2020 11:57:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 05:49:07.643337
- Title: Be Your Own Best Competitor! Multi-Branched Adversarial Knowledge
Transfer
- Title(参考訳): 自分のベストコンペティターになれる!
多分岐逆数知識伝達
- Authors: Mahdi Ghorbani, Fahimeh Fooladgar, Shohreh Kasaei
- Abstract要約: 提案手法は,高速な画像分類とエンコーダデコーダアーキテクチャの両方に特化しており,推論過程において余分な計算オーバーヘッドを発生させることなく,小型・コンパクトなモデルの性能を向上させる。
提案手法は, 従来の自己蒸留法よりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 15.499267533387039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural network architectures have attained remarkable improvements in
scene understanding tasks. Utilizing an efficient model is one of the most
important constraints for limited-resource devices. Recently, several
compression methods have been proposed to diminish the heavy computational
burden and memory consumption. Among them, the pruning and quantizing methods
exhibit a critical drop in performances by compressing the model parameters.
While the knowledge distillation methods improve the performance of compact
models by focusing on training lightweight networks with the supervision of
cumbersome networks. In the proposed method, the knowledge distillation has
been performed within the network by constructing multiple branches over the
primary stream of the model, known as the self-distillation method. Therefore,
the ensemble of sub-neural network models has been proposed to transfer the
knowledge among themselves with the knowledge distillation policies as well as
an adversarial learning strategy. Hence, The proposed ensemble of sub-models is
trained against a discriminator model adversarially. Besides, their knowledge
is transferred within the ensemble by four different loss functions. The
proposed method has been devoted to both lightweight image classification and
encoder-decoder architectures to boost the performance of small and compact
models without incurring extra computational overhead at the inference process.
Extensive experimental results on the main challenging datasets show that the
proposed network outperforms the primary model in terms of accuracy at the same
number of parameters and computational cost. The obtained results show that the
proposed model has achieved significant improvement over earlier ideas of
self-distillation methods. The effectiveness of the proposed models has also
been illustrated in the encoder-decoder model.
- Abstract(参考訳): 深層ニューラルネットワークアーキテクチャは、シーン理解タスクにおいて著しく改善されている。
効率的なモデルを使用することは、限られたリソースデバイスにとって最も重要な制約のひとつだ。
近年,計算負荷とメモリ消費を低減させる圧縮手法がいくつか提案されている。
その中でも、プルーニングと量子化の手法は、モデルパラメータを圧縮することで、性能の重大な低下を示す。
知識蒸留法は, 煩雑なネットワークを監督する軽量ネットワークの訓練に重点を置いて, コンパクトモデルの性能を向上させる。
提案手法では, 自己蒸留法として知られるモデルの一次流上に複数の枝を構築し, ネットワーク内での知識蒸留を行った。
そのため、知識蒸留政策や敵対的学習戦略とともに、知識を相互に伝達するサブニューラルネットワークモデルのアンサンブルが提案されている。
したがって、サブモデルのアンサンブルは差別モデルに対して逆向きに訓練される。
さらに、それらの知識は4つの異なる損失関数によってアンサンブル内で伝達される。
提案手法は, 画像分類とエンコーダ・デコーダアーキテクチャの両方に応用され, 計算オーバーヘッドを増大させることなく, 小型でコンパクトなモデルの性能を向上させる。
主な課題であるデータセットに対する大規模な実験結果から,提案したネットワークは,同じパラメータ数と計算コストの精度で一次モデルを上回る性能を示した。
その結果, 先行する自己蒸留法に比べて, 提案モデルが大幅に改善されていることがわかった。
提案モデルの有効性はエンコーダ・デコーダモデルにも示されている。
関連論文リスト
- LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。
全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。
提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文 参考訳(メタデータ) (2024-05-23T11:10:32Z) - Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。
提案手法では,パラメータ数を70%以上圧縮できる。
また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文 参考訳(メタデータ) (2023-12-16T23:23:16Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Bayesian sparsification for deep neural networks with Bayesian model
reduction [0.6144680854063939]
我々は,モデルウェイトを刈り取るためのより効率的な代替手段として,ベイズモデルリダクション(BMR)の使用を提唱する。
BMRは、単純な(非階層的な)生成モデルの下での後方推定に基づいて、余剰モデル重みのポストホック除去を可能にする。
我々は、LeNetのような古典的なネットワークから、VisionやTransformers-Mixersのようなモダンなフレームワークまで、さまざまなディープラーニングアーキテクチャにおけるBMRの可能性について説明する。
論文 参考訳(メタデータ) (2023-09-21T14:10:47Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - Reconciliation of Pre-trained Models and Prototypical Neural Networks in
Few-shot Named Entity Recognition [35.34238362639678]
本研究では,このようなミスマッチを経験的・理論的根拠と整合させる一線符号正規化法を提案する。
我々の研究は、数発のエンティティ認識における一般的な問題に対処するための分析的な視点も提供します。
論文 参考訳(メタデータ) (2022-11-07T02:33:45Z) - "Understanding Robustness Lottery": A Geometric Visual Comparative
Analysis of Neural Network Pruning Approaches [29.048660060344574]
この研究は、異なるプルーニング手法がネットワークの内部的特徴表現とそれに伴うモデルパフォーマンスへの影響をどのように変化させるかを明らかにすることを目的としている。
モデル性能と特徴表現に対するプルーニングの影響を比較・強調するために,特徴表現の視覚幾何学的解析を導入する。
提案ツールは,プルーニング手法の詳細な比較環境と,一般的なデータ破損に対するモデル応答の包括的理解を提供する。
論文 参考訳(メタデータ) (2022-06-16T04:44:13Z) - Automatic Block-wise Pruning with Auxiliary Gating Structures for Deep
Convolutional Neural Networks [9.293334856614628]
本稿では,補助ゲーティング構造を有する新しいネットワーク切断法を提案する。
実験により,本手法は分類タスクの最先端圧縮性能を実現することができることを示した。
論文 参考訳(メタデータ) (2022-05-07T09:03:32Z) - Powerpropagation: A sparsity inducing weight reparameterisation [65.85142037667065]
我々は、本質的にスパースモデルにつながるニューラルネットワークの新しい重みパラメータ化であるPowerpropagationを紹介した。
この方法で訓練されたモデルは同様の性能を示すが、0で明らかに高い密度の分布を持ち、より多くのパラメータを安全に刈り取ることができる。
ここでは、Powerpropagationと従来のウェイトプルーニング技術と、最近の最先端スパース・トゥ・スパースアルゴリズムを組み合わせることで、ImageNetベンチマークで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-10-01T10:03:57Z) - Efficient training of lightweight neural networks using Online
Self-Acquired Knowledge Distillation [51.66271681532262]
オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。
出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
論文 参考訳(メタデータ) (2021-08-26T14:01:04Z) - Deep Variational Models for Collaborative Filtering-based Recommender
Systems [63.995130144110156]
ディープラーニングは、リコメンダシステムの結果を改善するために、正確な協調フィルタリングモデルを提供する。
提案するモデルは, 深層建築の潜伏空間において, 変分概念を注入性に適用する。
提案手法は, 入射雑音効果を超える変動エンリッチメントのシナリオにおいて, 提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-07-27T08:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。