論文の概要: The Impact of Model Zoo Size and Composition on Weight Space Learning
- arxiv url: http://arxiv.org/abs/2504.10141v1
- Date: Mon, 14 Apr 2025 11:54:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:24.841105
- Title: The Impact of Model Zoo Size and Composition on Weight Space Learning
- Title(参考訳): モデル動物サイズと構成が重み空間学習に及ぼす影響
- Authors: Damian Falk, Konstantin Schürholt, Damian Borth,
- Abstract要約: トレーニングされたニューラルネットワークモデルを再利用することは、トレーニングコストを削減し、知識を伝達する一般的な戦略である。
重量宇宙学習は、将来のタスクのために事前訓練されたモデルの集団を再利用するための、有望な新しい分野である。
そこで本研究では,異種集団の訓練に適応する共通重み空間学習法を提案する。
- 参考スコア(独自算出の注目度): 8.11780615053558
- License:
- Abstract: Re-using trained neural network models is a common strategy to reduce training cost and transfer knowledge. Weight space learning - using the weights of trained models as data modality - is a promising new field to re-use populations of pre-trained models for future tasks. Approaches in this field have demonstrated high performance both on model analysis and weight generation tasks. However, until now their learning setup requires homogeneous model zoos where all models share the same exact architecture, limiting their capability to generalize beyond the population of models they saw during training. In this work, we remove this constraint and propose a modification to a common weight space learning method to accommodate training on heterogeneous populations of models. We further investigate the resulting impact of model diversity on generating unseen neural network model weights for zero-shot knowledge transfer. Our extensive experimental evaluation shows that including models with varying underlying image datasets has a high impact on performance and generalization, for both in- and out-of-distribution settings. Code is available on github.com/HSG-AIML/MultiZoo-SANE.
- Abstract(参考訳): トレーニングされたニューラルネットワークモデルを再利用することは、トレーニングコストを削減し、知識を伝達する一般的な戦略である。
重量空間学習 - トレーニングされたモデルの重みをデータモダリティとして使う - は、将来のタスクのために事前訓練されたモデルの人口を再使用するための、有望な新しい分野である。
この分野でのアプローチは、モデル解析と重み生成タスクの両方で高い性能を示している。
しかし、これまでの彼らの学習環境は、全てのモデルが同じアーキテクチャを共有し、訓練中に見たモデルの人口を超えて一般化する能力を制限する等質なモデル動物園を必要としていた。
本研究では, この制約を除去し, モデルの不均一な集団に対するトレーニングに対応するために, 共通重み空間学習法を改良することを提案する。
さらに、ゼロショット知識伝達のための未知のニューラルネットワークモデル重みの生成に対するモデル多様性の影響について検討する。
画像データセットが変化するモデルを含め、大規模な実験により、イン・オブ・ディストリビューション・セッティングとアウト・オブ・ディストリビューション・セッティングの両方において、性能と一般化に大きな影響を及ぼすことが示された。
コードはgithub.com/HSG-AIML/MultiZoo-SANEで入手できる。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - An exactly solvable model for emergence and scaling laws in the multitask sparse parity problem [2.598133279943607]
本稿では,新たな能力(スキル)を基礎関数として表現するフレームワークを提案する。
新たなスキルの出現と、トレーニング時間、データサイズ、モデルサイズ、最適計算による損失の法則のスケーリングに関する分析式を見つける。
私たちの単純なモデルでは、単一の適合パラメータを使用して、トレーニング時間、データサイズ、モデルサイズが増大するにつれて、複数の新しいスキルのシグモダルな出現を捉えます。
論文 参考訳(メタデータ) (2024-04-26T17:45:32Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - Fantastic Gains and Where to Find Them: On the Existence and Prospect of
General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。
このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文 参考訳(メタデータ) (2023-10-26T17:59:46Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Hyper-Representations as Generative Models: Sampling Unseen Neural
Network Weights [2.9678808525128813]
我々は、新しいモデルウェイトをサンプリングするために、生成的使用のためのハイパー表現を拡張した。
以上の結果から, モデル動物園からハイパー表現による新しいモデルへの知識集約の可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-29T12:53:58Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。