論文の概要: Representing Model Weights with Language using Tree Experts
- arxiv url: http://arxiv.org/abs/2410.13569v1
- Date: Thu, 17 Oct 2024 17:17:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:20:57.846189
- Title: Representing Model Weights with Language using Tree Experts
- Title(参考訳): 木エキスパートを用いた言語によるモデルウェイト表現
- Authors: Eliahu Horwitz, Bar Cavia, Jonathan Kahana, Yedid Hoshen,
- Abstract要約: 本稿では,モデル重みと言語の両方を組み込んだ共同空間内のモデルを表現することを学ぶ。
Probing Experts (ProbeX) は理論的に動機づけられた軽量な探査手法である。
以上の結果から, ProbeX は大規模モデルの重みを共有重み付き埋め込み空間に効果的にマッピングできることが示唆された。
- 参考スコア(独自算出の注目度): 39.90685550999956
- License:
- Abstract: The increasing availability of public models begs the question: can we train neural networks that use other networks as input? This paper learns to represent models within a joint space that embeds both model weights and language. However, machine learning on model weights is challenging as model weights often exhibit significant variation unrelated to the models' semantic properties (nuisance variation). We identify a key property of real-world models: most public models belong to a small set of Model Trees, where all models within a tree are fine-tuned from a common ancestor (e.g., a foundation model). Importantly, we find that within each tree there is less nuisance variation between models. For example, while classifying models according to their training dataset generally requires complex architectures, in our case, even a linear classifier trained on a single layer is often effective. While effective, linear layers are computationally expensive as model weights are very high dimensional. To address this, we introduce Probing Experts (ProbeX), a theoretically motivated, lightweight probing method. Notably, ProbeX is the first probing method designed to learn from the weights of just a single model layer. We also construct and release a dataset that simulates the structure of public model repositories. Our results show that ProbeX can effectively map the weights of large models into a shared weight-language embedding space. Furthermore, we demonstrate the impressive generalization of our method, achieving zero-shot model classification and retrieval.
- Abstract(参考訳): 他のネットワークを入力として使用するニューラルネットワークをトレーニングできるだろうか?
本稿では,モデル重みと言語の両方を組み込んだ共同空間内のモデルを表現することを学ぶ。
しかし、モデルの重みに関する機械学習は、モデルのセマンティック特性(ニュアンス変動)とは無関係な有意な変動を示すことが多いため、困難である。
ほとんどの公開モデルはモデルツリーの小さな集合に属し、ツリー内のすべてのモデルは共通の祖先(例えば基礎モデル)から微調整される。
重要なのは、各木にはモデル間のニュアンスの変化が少ないことだ。
例えば、トレーニングデータセットに従ってモデルを分類するには、一般的に複雑なアーキテクチャが必要ですが、私たちの場合、単一の層でトレーニングされた線形分類器でさえ効果的です。
有効ではあるが、モデルウェイトが非常に高次元であるため、線形層は計算的に高価である。
この問題に対処するために,理論上動機付けされた軽量な探索手法であるProbeXを紹介した。
注目すべきは、ProbeXは単一のモデルレイヤーの重みから学ぶために設計された最初のプローブ手法である。
また、パブリックモデルリポジトリの構造をシミュレートするデータセットを構築し、リリースします。
以上の結果から, ProbeX は大規模モデルの重みを共有重み付き埋め込み空間に効果的にマッピングできることが示唆された。
さらに、ゼロショットモデル分類と検索を達成し、本手法の印象的な一般化を実証する。
関連論文リスト
- Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging [23.44999968321367]
Soup-of-Expertsは、最小の計算コストでテスト時にモデルをインスタンス化できます。
提案手法は,複数の言語モデリングタスクにおいて,小さな特化モデルを迅速に獲得する方法を実証する。
論文 参考訳(メタデータ) (2025-02-03T20:33:20Z) - Exploring space efficiency in a tree-based linear model for extreme multi-label classification [11.18858602369985]
Extreme Multi-label Classification (XMC) は、複数のラベルから関連するサブセットを特定することを目的としている。
XMCの様々なアプローチの中で、ツリーベースの線形モデルは効率と単純さの点で有効である。
本研究では,その空間における理論的および実証的な解析を行い,疎データの仮定の下で木モデルを記憶する。
論文 参考訳(メタデータ) (2024-10-12T15:02:40Z) - On the Origin of Llamas: Model Tree Heritage Recovery [39.08927346274156]
本稿では,ニューラルネットワークにおけるモデルツリー発見のためのモデルツリー復元(MoTHer Recovery)の課題を紹介する。
我々の仮説では、モデルウェイトがこの情報を符号化し、ウェイトを考慮すれば、基盤となるツリー構造をデコードすることが課題である。
MoTHerリカバリは、検索エンジンによるインターネットのインデックス化に似た、エキサイティングな長期的アプリケーションを提供する。
論文 参考訳(メタデータ) (2024-05-28T17:59:51Z) - BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。
我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。
提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文 参考訳(メタデータ) (2024-03-23T08:40:38Z) - A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。
我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文 参考訳(メタデータ) (2024-02-02T01:41:38Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。
我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。
実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文 参考訳(メタデータ) (2022-09-15T15:41:47Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Neural Basis Models for Interpretability [33.51591891812176]
一般化加法モデル(GAMs)は本質的に解釈可能なモデルのクラスである。
形状関数の基底分解を利用するGAMの全く新しいサブファミリーを提案する。
少数の基底関数はすべての機能で共有され、与えられたタスクに対して共同で学習される。
論文 参考訳(メタデータ) (2022-05-27T17:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。