論文の概要: Learning on Model Weights using Tree Experts
- arxiv url: http://arxiv.org/abs/2410.13569v2
- Date: Thu, 05 Dec 2024 11:50:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-06 14:38:01.406371
- Title: Learning on Model Weights using Tree Experts
- Title(参考訳): 木エキスパートを用いたモデルウェイト学習
- Authors: Eliahu Horwitz, Bar Cavia, Jonathan Kahana, Yedid Hoshen,
- Abstract要約: 入力として他のネットワークを使用するニューラルネットワークのトレーニング方法を示す。
ProbeXは、単一のモデル層の重みから学ぶために特別に設計された最初のプローブ手法である。
本稿では,モデルのトレーニングデータセットのカテゴリを重みのみに基づいて予測することで,ProbeXの有効性を示す。
- 参考スコア(独自算出の注目度): 39.90685550999956
- License:
- Abstract: The increasing availability of public models begs the question: can we train neural networks that use other networks as input? Such models allow us to study different aspects of a given neural network, for example, determining the categories in a model's training dataset. However, machine learning on model weights is challenging as they often exhibit significant variation unrelated to the models' semantic properties (nuisance variation). Here, we identify a key property of real-world models: most public models belong to a small set of Model Trees, where all models within a tree are fine-tuned from a common ancestor (e.g., a foundation model). Importantly, we find that within each tree there is less nuisance variation between models. Concretely, while learning across Model Trees requires complex architectures, even a linear classifier trained on a single model layer often works within trees. While effective, these linear classifiers are computationally expensive, especially when dealing with larger models that have many parameters. To address this, we introduce Probing Experts (ProbeX), a theoretically motivated and lightweight method. Notably, ProbeX is the first probing method specifically designed to learn from the weights of a single hidden model layer. We demonstrate the effectiveness of ProbeX by predicting the categories in a model's training dataset based only on its weights. Excitingly, ProbeX can also map the weights of Stable Diffusion into a shared weight-language embedding space, enabling zero-shot model classification.
- Abstract(参考訳): 他のネットワークを入力として使用するニューラルネットワークをトレーニングできるだろうか?
このようなモデルによって、例えばモデルのトレーニングデータセットのカテゴリを決定するなど、特定のニューラルネットワークのさまざまな側面を研究することが可能になる。
しかし、モデルの重みに関する機械学習は、しばしばモデルのセマンティック特性(ニュアンス変動)とは無関係な有意な変動を示すため、困難である。
ここでは、現実世界のモデルのキーとなる性質を識別する: ほとんどの公開モデルは、木内のすべてのモデルを共通の祖先(例えば、基礎モデル)から微調整するモデルツリーの小さな集合に属する。
重要なのは、各木にはモデル間のニュアンスの変化が少ないことだ。
具体的には、モデルツリーを横断する学習には複雑なアーキテクチャが必要だが、単一のモデル層でトレーニングされた線形分類器でさえ、しばしばツリー内で機能する。
有効ではあるが、これらの線形分類器は計算に高価であり、特に多くのパラメータを持つ大きなモデルを扱う場合である。
これを解決するために,理論上動機付けられた軽量な方法であるProbeX(Probing Experts)を紹介した。
特にProbeXは、単一の隠されたモデル層の重みから学ぶために特別に設計された最初のプローブ手法である。
本稿では,モデルのトレーニングデータセットのカテゴリを重みのみに基づいて予測することで,ProbeXの有効性を示す。
興味深いことに、ProbeXは安定拡散の重みを共有重み付き埋め込み空間にマッピングし、ゼロショットモデル分類を可能にする。
関連論文リスト
- On the Origin of Llamas: Model Tree Heritage Recovery [39.08927346274156]
本稿では,ニューラルネットワークにおけるモデルツリー発見のためのモデルツリー復元(MoTHer Recovery)の課題を紹介する。
我々の仮説では、モデルウェイトがこの情報を符号化し、ウェイトを考慮すれば、基盤となるツリー構造をデコードすることが課題である。
MoTHerリカバリは、検索エンジンによるインターネットのインデックス化に似た、エキサイティングな長期的アプリケーションを提供する。
論文 参考訳(メタデータ) (2024-05-28T17:59:51Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文 参考訳(メタデータ) (2023-02-09T18:59:18Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Neural Basis Models for Interpretability [33.51591891812176]
一般化加法モデル(GAMs)は本質的に解釈可能なモデルのクラスである。
形状関数の基底分解を利用するGAMの全く新しいサブファミリーを提案する。
少数の基底関数はすべての機能で共有され、与えられたタスクに対して共同で学習される。
論文 参考訳(メタデータ) (2022-05-27T17:31:19Z) - Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。
ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文 参考訳(メタデータ) (2021-04-23T02:56:02Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z) - BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage
Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。
発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文 参考訳(メタデータ) (2020-03-24T23:00:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。