Fugu-MT 論文翻訳(概要): Meta-Ensemble Parameter Learning

論文の概要: Meta-Ensemble Parameter Learning

arxiv url: http://arxiv.org/abs/2210.01973v1
Date: Wed, 5 Oct 2022 00:47:24 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-06 13:26:17.739407
Title: Meta-Ensemble Parameter Learning
Title（参考訳）: メタアンサンブルパラメータ学習
Authors: Zhengcong Fei, Shuman Tian, Junshi Huang, Xiaoming Wei, Xiaolin Wei
Abstract要約: 本稿では,メタラーニング手法を用いて,単一モデルのパラメータを直接予測できるかどうかを考察する。 WeightFormerは、トランスフォーマーベースのモデルで、フォワードパスの層で生徒のネットワーク重みを予測できる。
参考スコア（独自算出の注目度）: 35.6391802164328
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Ensemble of machine learning models yields improved performance as well as robustness. However, their memory requirements and inference costs can be prohibitively high. Knowledge distillation is an approach that allows a single model to efficiently capture the approximate performance of an ensemble while showing poor scalability as demand for re-training when introducing new teacher models. In this paper, we study if we can utilize the meta-learning strategy to directly predict the parameters of a single model with comparable performance of an ensemble. Hereto, we introduce WeightFormer, a Transformer-based model that can predict student network weights layer by layer in a forward pass, according to the teacher model parameters. The proprieties of WeightFormer are investigated on the CIFAR-10, CIFAR-100, and ImageNet datasets for model structures of VGGNet-11, ResNet-50, and ViT-B/32, where it demonstrates that our method can achieve approximate classification performance of an ensemble and outperforms both the single network and standard knowledge distillation. More encouragingly, we show that WeightFormer results can further exceeds average ensemble with minor fine-tuning. Importantly, our task along with the model and results can potentially lead to a new, more efficient, and scalable paradigm of ensemble networks parameter learning.
Abstract（参考訳）: 機械学習モデルの組み立てにより、パフォーマンスと堅牢性が向上する。しかし、メモリ要件や推論コストは制限的に高くなります。知識蒸留は、1つのモデルがアンサンブルの近似性能を効率的に捉えつつ、新しい教師モデルを導入する際に、再学習の需要としてスケーラビリティを低下させるアプローチである。本稿では,メタラーニング戦略を用いて,アンサンブルの性能に匹敵する単一モデルのパラメータを直接予測できるかどうかについて検討する。本稿では,教師モデルパラメータに従って,生徒のネットワーク重み付け層を前方通過層で予測できるTransformerベースのモデルWeightFormerを紹介する。 CIFAR-10, CIFAR-100, ImageNetデータセットを用いて, VGGNet-11, ResNet-50, ViT-B/32のモデル構造に対するWeightFormerの妥当性を検討した。より奨励的に、WeightFormerの結果は、微調整による平均アンサンブルを超える可能性があることを示す。重要なことは、我々のタスクとモデルと結果が、ネットワークパラメータ学習の新しい、より効率的でスケーラブルなパラダイムにつながる可能性があるということです。

関連論文リスト

Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文参考訳（メタデータ） (2025-06-13T14:29:40Z)
Instruction-Guided Autoregressive Neural Network Parameter Generation [49.800239140036496]
本稿では,多種多様なタスクやアーキテクチャにまたがるパラメータ合成を統一する自動回帰フレームワークIGPGを提案する。ニューラルネットワーク重みのトークンを自動回帰的に生成することにより、IGPGは層間コヒーレンスを確保し、モデルとデータセット間の効率的な適応を可能にする。複数のデータセットの実験により、IGPGは様々な事前訓練されたモデルを単一の柔軟な生成フレームワークに統合することを示した。
論文参考訳（メタデータ） (2025-04-02T05:50:19Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
Rethinking Weight-Averaged Model-merging [15.2881959315021]
モデルマージはディープラーニングにおける強力なアプローチとして現れ、トレーニングなしでモデルパフォーマンスを向上させることができる。本稿では,この手法を3つの新しい視点から検討し,重み付きモデルマージサージサージマン2022がどのように機能するかについて,より深い知見を提供する。
論文参考訳（メタデータ） (2024-11-14T08:02:14Z)
Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文参考訳（メタデータ） (2024-10-28T13:48:43Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
Efficiently Robustify Pre-trained Models [18.392732966487582]
大規模モデルの現実的な設定に対する堅牢性は、いまだ探索されていないトピックである。まず、異なる摂動とデータセットの下でこれらのモデルのパフォーマンスをベンチマークします。続いて、大規模ネットワークにおいて、モデルファインチューニングに基づく既存のロバスト化スキームが拡張性に欠ける可能性について論じる。
論文参考訳（メタデータ） (2023-09-14T08:07:49Z)
Scaling Pre-trained Language Models to Deeper via Parameter-efficient Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。 MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文参考訳（メタデータ） (2023-03-27T02:34:09Z)
Learning Queuing Networks by Recurrent Neural Networks [0.0]
データから性能モデルを導出する機械学習手法を提案する。我々は、通常の微分方程式のコンパクトな系の観点から、それらの平均力学の決定論的近似を利用する。これにより、ニューラルネットワークの解釈可能な構造が可能になり、システム測定からトレーニングしてホワイトボックスパラメータ化モデルを生成することができる。
論文参考訳（メタデータ） (2020-02-25T10:56:47Z)
Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文参考訳（メタデータ） (2019-10-12T22:07:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。