論文の概要: Compressing Models with Few Samples: Mimicking then Replacing
- arxiv url: http://arxiv.org/abs/2201.02620v1
- Date: Fri, 7 Jan 2022 07:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 15:03:37.356527
- Title: Compressing Models with Few Samples: Mimicking then Replacing
- Title(参考訳): わずかなサンプルでモデルを圧縮する: 模倣し、置き換える
- Authors: Huanyu Wang, Junjie Liu, Xin Ma, Yang Yong, Zhenhua Chai, Jianxin Wu
- Abstract要約: サンプルの少ない小さなコンパクトなモデルに、大きな冗長なモデルを圧縮することを目的としている。
数サンプル圧縮のためのMimicking then Replacing (MiR) という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.66481681493925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-sample compression aims to compress a big redundant model into a small
compact one with only few samples. If we fine-tune models with these limited
few samples directly, models will be vulnerable to overfit and learn almost
nothing. Hence, previous methods optimize the compressed model layer-by-layer
and try to make every layer have the same outputs as the corresponding layer in
the teacher model, which is cumbersome. In this paper, we propose a new
framework named Mimicking then Replacing (MiR) for few-sample compression,
which firstly urges the pruned model to output the same features as the
teacher's in the penultimate layer, and then replaces teacher's layers before
penultimate with a well-tuned compact one. Unlike previous layer-wise
reconstruction methods, our MiR optimizes the entire network holistically,
which is not only simple and effective, but also unsupervised and general. MiR
outperforms previous methods with large margins. Codes will be available soon.
- Abstract(参考訳): サンプルの少ない小さなコンパクトなモデルに、大きな冗長なモデルを圧縮することを目的としている。
これらの限られたサンプルを直接修正すれば、モデルは過度に適合し、ほとんど何も学ばない。
したがって、従来の方法では、圧縮モデル層を層単位で最適化し、すべての層が教師モデルの対応する層と同じ出力を持つようにしようとする。
そこで本論文では,まず,教師のペナルティメート層における特徴量と同じ特徴量を出力することをprunedモデルに促し,次に教師の層をよく調整されたコンパクトな圧縮に置き換える手法として,mir(museking then)という新しいフレームワークを提案する。
従来の階層的な再構築手法とは異なり、我々のMiRはネットワーク全体を一様に最適化し、シンプルで効果的であるだけでなく、教師なしで汎用性も備えている。
MiRは従来の手法よりも大きなマージンを持つ。
コードはもうすぐ入手できる。
関連論文リスト
- Activations and Gradients Compression for Model-Parallel Training [91.12425544503395]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Layer-wise Linear Mode Connectivity [56.53308504862033]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識を融合させる直感的な方法である。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - How To Train Your (Compressed) Large Language Model [29.29267133266529]
大規模言語モデルのためのタスク非依存圧縮パイプラインを開発する。
以上の結果から, 単純なレイヤワイドプルーニングに続き, 継続する言語モデルによる事前学習が, 既存の3つの最先端ベースラインを上回り, 性能が向上することが示された。
典型的なタスク特化圧縮とは異なり、最も圧縮されたモデルは、スクラッチから訓練された同様のサイズのモデルよりも大幅に性能が劣る。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-01T02:23:00Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Structural Dropout for Model Width Compression [1.52292571922932]
既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。
本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。
提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
論文 参考訳(メタデータ) (2022-05-13T21:50:57Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z) - Self-Supervised GAN Compression [32.21713098893454]
従来の手法では,標準モデル圧縮手法であるウェイトプルーニングがGANに適用できないことを示す。
次に、訓練された判別器を用いて圧縮発電機の訓練を監督する自己教師圧縮手法を開発する。
我々は,このフレームワークが高い疎度に対して魅力的な性能を示し,新しいタスクやモデルに容易に適用できることを示し,異なるプルーニング粒度間の有意義な比較を可能にする。
論文 参考訳(メタデータ) (2020-07-03T04:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。