論文の概要: Meta-Ensemble Parameter Learning
- arxiv url: http://arxiv.org/abs/2210.01973v1
- Date: Wed, 5 Oct 2022 00:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:26:17.739407
- Title: Meta-Ensemble Parameter Learning
- Title(参考訳): メタアンサンブルパラメータ学習
- Authors: Zhengcong Fei, Shuman Tian, Junshi Huang, Xiaoming Wei, Xiaolin Wei
- Abstract要約: 本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。
WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
- 参考スコア(独自算出の注目度): 35.6391802164328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble of machine learning models yields improved performance as well as
robustness. However, their memory requirements and inference costs can be
prohibitively high. Knowledge distillation is an approach that allows a single
model to efficiently capture the approximate performance of an ensemble while
showing poor scalability as demand for re-training when introducing new teacher
models. In this paper, we study if we can utilize the meta-learning strategy to
directly predict the parameters of a single model with comparable performance
of an ensemble. Hereto, we introduce WeightFormer, a Transformer-based model
that can predict student network weights layer by layer in a forward pass,
according to the teacher model parameters. The proprieties of WeightFormer are
investigated on the CIFAR-10, CIFAR-100, and ImageNet datasets for model
structures of VGGNet-11, ResNet-50, and ViT-B/32, where it demonstrates that
our method can achieve approximate classification performance of an ensemble
and outperforms both the single network and standard knowledge distillation.
More encouragingly, we show that WeightFormer results can further exceeds
average ensemble with minor fine-tuning. Importantly, our task along with the
model and results can potentially lead to a new, more efficient, and scalable
paradigm of ensemble networks parameter learning.
- Abstract(参考訳): 機械学習モデルの組み立てにより、パフォーマンスと堅牢性が向上する。
しかし、メモリ要件や推論コストは制限的に高くなります。
知識蒸留は、1つのモデルがアンサンブルの近似性能を効率的に捉えつつ、新しい教師モデルを導入する際に、再学習の需要としてスケーラビリティを低下させるアプローチである。
本稿では,メタラーニング戦略を用いて,アンサンブルの性能に匹敵する単一モデルのパラメータを直接予測できるかどうかについて検討する。
本稿では,教師モデルパラメータに従って,生徒のネットワーク重み付け層を前方通過層で予測できるTransformerベースのモデルWeightFormerを紹介する。
CIFAR-10, CIFAR-100, ImageNetデータセットを用いて, VGGNet-11, ResNet-50, ViT-B/32のモデル構造に対するWeightFormerの妥当性を検討した。
より奨励的に、WeightFormerの結果は、微調整による平均アンサンブルを超える可能性があることを示す。
重要なことは、我々のタスクとモデルと結果が、ネットワークパラメータ学習の新しい、より効率的でスケーラブルなパラダイムにつながる可能性があるということです。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning Queuing Networks by Recurrent Neural Networks [0.0]
データから性能モデルを導出する機械学習手法を提案する。
我々は、通常の微分方程式のコンパクトな系の観点から、それらの平均力学の決定論的近似を利用する。
これにより、ニューラルネットワークの解釈可能な構造が可能になり、システム測定からトレーニングしてホワイトボックスパラメータ化モデルを生成することができる。
論文 参考訳(メタデータ) (2020-02-25T10:56:47Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。