論文の概要: Meta-Ensemble Parameter Learning
- arxiv url: http://arxiv.org/abs/2210.01973v1
- Date: Wed, 5 Oct 2022 00:47:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 13:26:17.739407
- Title: Meta-Ensemble Parameter Learning
- Title(参考訳): メタアンサンブルパラメータ学習
- Authors: Zhengcong Fei, Shuman Tian, Junshi Huang, Xiaoming Wei, Xiaolin Wei
- Abstract要約: 本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。
WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
- 参考スコア(独自算出の注目度): 35.6391802164328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ensemble of machine learning models yields improved performance as well as
robustness. However, their memory requirements and inference costs can be
prohibitively high. Knowledge distillation is an approach that allows a single
model to efficiently capture the approximate performance of an ensemble while
showing poor scalability as demand for re-training when introducing new teacher
models. In this paper, we study if we can utilize the meta-learning strategy to
directly predict the parameters of a single model with comparable performance
of an ensemble. Hereto, we introduce WeightFormer, a Transformer-based model
that can predict student network weights layer by layer in a forward pass,
according to the teacher model parameters. The proprieties of WeightFormer are
investigated on the CIFAR-10, CIFAR-100, and ImageNet datasets for model
structures of VGGNet-11, ResNet-50, and ViT-B/32, where it demonstrates that
our method can achieve approximate classification performance of an ensemble
and outperforms both the single network and standard knowledge distillation.
More encouragingly, we show that WeightFormer results can further exceeds
average ensemble with minor fine-tuning. Importantly, our task along with the
model and results can potentially lead to a new, more efficient, and scalable
paradigm of ensemble networks parameter learning.
- Abstract(参考訳): 機械学習モデルの組み立てにより、パフォーマンスと堅牢性が向上する。
しかし、メモリ要件や推論コストは制限的に高くなります。
知識蒸留は、1つのモデルがアンサンブルの近似性能を効率的に捉えつつ、新しい教師モデルを導入する際に、再学習の需要としてスケーラビリティを低下させるアプローチである。
本稿では,メタラーニング戦略を用いて,アンサンブルの性能に匹敵する単一モデルのパラメータを直接予測できるかどうかについて検討する。
本稿では,教師モデルパラメータに従って,生徒のネットワーク重み付け層を前方通過層で予測できるTransformerベースのモデルWeightFormerを紹介する。
CIFAR-10, CIFAR-100, ImageNetデータセットを用いて, VGGNet-11, ResNet-50, ViT-B/32のモデル構造に対するWeightFormerの妥当性を検討した。
より奨励的に、WeightFormerの結果は、微調整による平均アンサンブルを超える可能性があることを示す。
重要なことは、我々のタスクとモデルと結果が、ネットワークパラメータ学習の新しい、より効率的でスケーラブルなパラダイムにつながる可能性があるということです。
関連論文リスト
- Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。
まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。
続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文 参考訳(メタデータ) (2023-09-14T08:07:49Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Feeding What You Need by Understanding What You Learned [54.400455868448695]
Machine Reading (MRC)は、与えられたテキストパスを理解し、それに基づいて質問に答える機能を明らかにする。
MRCの既存の研究は、Exact Matchのようなメトリクスによって評価されたパフォーマンスを改善するために、大規模なモデルとコーパスに大きく依存している。
モデル機能とデータ特性の深い理解は、適切なトレーニングデータでモデルをフィードするのに役立ちます。
論文 参考訳(メタデータ) (2022-03-05T14:15:59Z) - HyperTransformer: Model Generation for Supervised and Semi-Supervised
Few-Shot Learning [14.412066456583917]
本稿では,支援サンプルから直接畳み込みニューラルネットワーク(CNN)の重みを生成する,少数ショット学習のためのトランスフォーマーベースモデルを提案する。
本手法は,タスク非依存の定型埋め込みの学習が最適でない小ターゲットCNNアーキテクチャにおいて,特に有効である。
提案手法は,サポートセット内のラベルなしサンプルを利用した半教師付きシステムに拡張され,さらにショット性能が向上する。
論文 参考訳(メタデータ) (2022-01-11T20:15:35Z) - Model Embedding Model-Based Reinforcement Learning [4.566180616886624]
モデルベース強化学習(MBRL)は、モデルフリー強化学習(MFRL)よりもサンプル効率が優れていることを示す。
しかし、データ生成の容易さとモデルのバイアスとの間には、依然としてトレードオフがある。
本稿では,確率的強化学習の枠組みとして,シンプルでエレガントなモデル埋め込み型強化学習(MEMB)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T15:10:28Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Learning Queuing Networks by Recurrent Neural Networks [0.0]
データから性能モデルを導出する機械学習手法を提案する。
我々は、通常の微分方程式のコンパクトな系の観点から、それらの平均力学の決定論的近似を利用する。
これにより、ニューラルネットワークの解釈可能な構造が可能になり、システム測定からトレーニングしてホワイトボックスパラメータ化モデルを生成することができる。
論文 参考訳(メタデータ) (2020-02-25T10:56:47Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。