論文の概要: Compressing Models with Few Samples: Mimicking then Replacing
- arxiv url: http://arxiv.org/abs/2201.02620v1
- Date: Fri, 7 Jan 2022 07:03:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 15:03:37.356527
- Title: Compressing Models with Few Samples: Mimicking then Replacing
- Title(参考訳): わずかなサンプルでモデルを圧縮する: 模倣し、置き換える
- Authors: Huanyu Wang, Junjie Liu, Xin Ma, Yang Yong, Zhenhua Chai, Jianxin Wu
- Abstract要約: サンプルの少ない小さなコンパクトなモデルに、大きな冗長なモデルを圧縮することを目的としている。
数サンプル圧縮のためのMimicking then Replacing (MiR) という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 33.66481681493925
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Few-sample compression aims to compress a big redundant model into a small
compact one with only few samples. If we fine-tune models with these limited
few samples directly, models will be vulnerable to overfit and learn almost
nothing. Hence, previous methods optimize the compressed model layer-by-layer
and try to make every layer have the same outputs as the corresponding layer in
the teacher model, which is cumbersome. In this paper, we propose a new
framework named Mimicking then Replacing (MiR) for few-sample compression,
which firstly urges the pruned model to output the same features as the
teacher's in the penultimate layer, and then replaces teacher's layers before
penultimate with a well-tuned compact one. Unlike previous layer-wise
reconstruction methods, our MiR optimizes the entire network holistically,
which is not only simple and effective, but also unsupervised and general. MiR
outperforms previous methods with large margins. Codes will be available soon.
- Abstract(参考訳): サンプルの少ない小さなコンパクトなモデルに、大きな冗長なモデルを圧縮することを目的としている。
これらの限られたサンプルを直接修正すれば、モデルは過度に適合し、ほとんど何も学ばない。
したがって、従来の方法では、圧縮モデル層を層単位で最適化し、すべての層が教師モデルの対応する層と同じ出力を持つようにしようとする。
そこで本論文では,まず,教師のペナルティメート層における特徴量と同じ特徴量を出力することをprunedモデルに促し,次に教師の層をよく調整されたコンパクトな圧縮に置き換える手法として,mir(museking then)という新しいフレームワークを提案する。
従来の階層的な再構築手法とは異なり、我々のMiRはネットワーク全体を一様に最適化し、シンプルで効果的であるだけでなく、教師なしで汎用性も備えている。
MiRは従来の手法よりも大きなマージンを持つ。
コードはもうすぐ入手できる。
関連論文リスト
- Chip-Tuning: Classify Before Language Models Say [25.546473157624945]
チップチューニングは、分類問題に対するシンプルで効果的な構造化プルーニングフレームワークである。
チップチューニングは,従来の最先端のベースラインを精度とプルーニング比の両方で大幅に上回っていることを示す。
また、チップチューニングはマルチモーダルモデルに適用でき、モデル微調整と組み合わせることで、優れた互換性が証明できる。
論文 参考訳(メタデータ) (2024-10-09T04:35:22Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - Unified Low-rank Compression Framework for Click-through Rate Prediction [15.813889566241539]
本稿では,CTR予測モデルを圧縮する低ランク分解フレームワークを提案する。
私たちのフレームワークはオリジナルのモデルよりも優れたパフォーマンスを実現できます。
我々のフレームワークは、様々なCTR予測モデルにテーブルやレイヤーを埋め込むのに利用できる。
論文 参考訳(メタデータ) (2024-05-28T13:06:32Z) - Tiny Models are the Computational Saver for Large Models [1.8350044465969415]
本稿では,TinySaverについて紹介する。TinySaverは,大規模モデルを適応的に置き換えるために小さなモデルを用いる,早期に出現する動的モデル圧縮手法である。
この手法をImageNet-1k分類で評価した結果,最大90%の演算数を削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-03-26T14:14:30Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Layer-wise Linear Mode Connectivity [52.6945036534469]
ニューラルネットワークパラメータの平均化は、2つの独立したモデルの知識の直感的な方法である。
フェデレートラーニングにおいて最も顕著に用いられている。
私たちは、単一グループやグループを平均化するモデルの性能を分析します。
論文 参考訳(メタデータ) (2023-07-13T09:39:10Z) - $\Delta$-Patching: A Framework for Rapid Adaptation of Pre-trained
Convolutional Networks without Base Performance Loss [71.46601663956521]
大規模なデータセットで事前トレーニングされたモデルはしばしば、時間とともにやってくる新しいタスクやデータセットをサポートするように微調整される。
モデルコピーを格納することなく、効率よく微調整ニューラルネットワークモデルに$Delta$-Patchingを提案する。
我々の実験によると、$Delta$-Networksは、トレーニングされるパラメータのごく一部しか必要とせず、初期のモデルパッチ作業より優れています。
論文 参考訳(メタデータ) (2023-03-26T16:39:44Z) - Voting from Nearest Tasks: Meta-Vote Pruning of Pre-trained Models for
Downstream Tasks [55.431048995662714]
我々は、類似タスクの刈り取られたモデルから、新しいタスクのための小さなモデルを作成する。
このモデルに関するいくつかの微調整ステップは、新しいタスクに対して有望なプルーンドモデルを生成するのに十分であることを示す。
我々は, 単純だが効果的な'Meta-Vote Pruning (MVP)' 手法を開発した。
論文 参考訳(メタデータ) (2023-01-27T06:49:47Z) - Multi-stage Progressive Compression of Conformer Transducer for
On-device Speech Recognition [7.450574974954803]
スマートデバイスにおける小さなメモリ帯域幅は、より小さな自動音声認識(ASR)モデルの開発を促す。
知識蒸留(KD)は、より小さなモデルサイズを達成するための一般的なモデル圧縮手法である。
KDを用いてコンバータトランスデューサモデルを圧縮する多段階プログレッシブアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-01T02:23:00Z) - Structural Dropout for Model Width Compression [1.52292571922932]
既存のMLモデルは高度に過度にパラメータ化され、与えられたタスクに必要なリソースよりもはるかに多くのリソースを使用することが知られている。
本稿では,オリジナルのモデルと圧縮モデルのセットに対して,1つのトレーニングセッションのみを必要とする手法を提案する。
提案したアプローチは"構造的"なドロップアウトであり、ランダムに選択されたインデックスの上に隠された状態のすべての要素をプルークし、モデルにその特徴に対する重要な順序を学習させる。
論文 参考訳(メタデータ) (2022-05-13T21:50:57Z) - Prior Guided Feature Enrichment Network for Few-Shot Segmentation [64.91560451900125]
最先端のセマンティックセグメンテーション手法は、良い結果を得るために十分なラベル付きデータを必要とする。
少数のラベル付きサポートサンプルを持つ新しいクラスに迅速に適応するモデルを学習することで,この問題に対処するためのショットセグメンテーションが提案されている。
これらのフレームワークは、高レベルのセマンティック情報の不適切な使用により、目に見えないクラスにおける一般化能力の低下という課題に直面している。
論文 参考訳(メタデータ) (2020-08-04T10:41:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。