Fugu-MT 論文翻訳(概要): Learning on Model Weights using Tree Experts

論文の概要: Learning on Model Weights using Tree Experts

arxiv url: http://arxiv.org/abs/2410.13569v2
Date: Thu, 05 Dec 2024 11:50:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 16:26:07.864863
Title: Learning on Model Weights using Tree Experts
Title（参考訳）: 木エキスパートを用いたモデルウェイト学習
Authors: Eliahu Horwitz, Bar Cavia, Jonathan Kahana, Yedid Hoshen,
Abstract要約: 入力として他のネットワークを使用するニューラルネットワークのトレーニング方法を示す。 ProbeXは、単一のモデル層の重みから学ぶために特別に設計された最初のプローブ手法である。本稿では,モデルのトレーニングデータセットのカテゴリを重みのみに基づいて予測することで,ProbeXの有効性を示す。
参考スコア（独自算出の注目度）: 39.90685550999956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing availability of public models begs the question: can we train neural networks that use other networks as input? Such models allow us to study different aspects of a given neural network, for example, determining the categories in a model's training dataset. However, machine learning on model weights is challenging as they often exhibit significant variation unrelated to the models' semantic properties (nuisance variation). Here, we identify a key property of real-world models: most public models belong to a small set of Model Trees, where all models within a tree are fine-tuned from a common ancestor (e.g., a foundation model). Importantly, we find that within each tree there is less nuisance variation between models. Concretely, while learning across Model Trees requires complex architectures, even a linear classifier trained on a single model layer often works within trees. While effective, these linear classifiers are computationally expensive, especially when dealing with larger models that have many parameters. To address this, we introduce Probing Experts (ProbeX), a theoretically motivated and lightweight method. Notably, ProbeX is the first probing method specifically designed to learn from the weights of a single hidden model layer. We demonstrate the effectiveness of ProbeX by predicting the categories in a model's training dataset based only on its weights. Excitingly, ProbeX can also map the weights of Stable Diffusion into a shared weight-language embedding space, enabling zero-shot model classification.
Abstract（参考訳）: 他のネットワークを入力として使用するニューラルネットワークをトレーニングできるだろうか? このようなモデルによって、例えばモデルのトレーニングデータセットのカテゴリを決定するなど、特定のニューラルネットワークのさまざまな側面を研究することが可能になる。しかし、モデルの重みに関する機械学習は、しばしばモデルのセマンティック特性(ニュアンス変動)とは無関係な有意な変動を示すため、困難である。ここでは、現実世界のモデルのキーとなる性質を識別する: ほとんどの公開モデルは、木内のすべてのモデルを共通の祖先(例えば、基礎モデル)から微調整するモデルツリーの小さな集合に属する。重要なのは、各木にはモデル間のニュアンスの変化が少ないことだ。具体的には、モデルツリーを横断する学習には複雑なアーキテクチャが必要だが、単一のモデル層でトレーニングされた線形分類器でさえ、しばしばツリー内で機能する。有効ではあるが、これらの線形分類器は計算に高価であり、特に多くのパラメータを持つ大きなモデルを扱う場合である。これを解決するために,理論上動機付けられた軽量な方法であるProbeX(Probing Experts)を紹介した。特にProbeXは、単一の隠されたモデル層の重みから学ぶために特別に設計された最初のプローブ手法である。本稿では,モデルのトレーニングデータセットのカテゴリを重みのみに基づいて予測することで,ProbeXの有効性を示す。興味深いことに、ProbeXは安定拡散の重みを共有重み付き埋め込み空間にマッピングし、ゼロショットモデル分類を可能にする。

関連論文リスト

Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging [23.44999968321367]
Soup-of-Expertsは、最小の計算コストでテスト時にモデルをインスタンス化できます。提案手法は,複数の言語モデリングタスクにおいて,小さな特化モデルを迅速に獲得する方法を実証する。
論文参考訳（メタデータ） (2025-02-03T20:33:20Z)
Exploring space efficiency in a tree-based linear model for extreme multi-label classification [11.18858602369985]
Extreme Multi-label Classification (XMC) は、複数のラベルから関連するサブセットを特定することを目的としている。 XMCの様々なアプローチの中で、ツリーベースの線形モデルは効率と単純さの点で有効である。本研究では,その空間における理論的および実証的な解析を行い,疎データの仮定の下で木モデルを記憶する。
論文参考訳（メタデータ） (2024-10-12T15:02:40Z)
On the Origin of Llamas: Model Tree Heritage Recovery [39.08927346274156]
本稿では,ニューラルネットワークにおけるモデルツリー発見のためのモデルツリー復元(MoTHer Recovery)の課題を紹介する。我々の仮説では、モデルウェイトがこの情報を符号化し、ウェイトを考慮すれば、基盤となるツリー構造をデコードすることが課題である。 MoTHerリカバリは、検索エンジンによるインターネットのインデックス化に似た、エキサイティングな長期的アプリケーションを提供する。
論文参考訳（メタデータ） (2024-05-28T17:59:51Z)
BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文参考訳（メタデータ） (2024-03-23T08:40:38Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-11-30T18:58:26Z)
Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文参考訳（メタデータ） (2023-02-09T18:59:18Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文参考訳（メタデータ） (2022-09-15T15:41:47Z)
Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文参考訳（メタデータ） (2022-07-19T20:19:03Z)
Neural Basis Models for Interpretability [33.51591891812176]
一般化加法モデル(GAMs)は本質的に解釈可能なモデルのクラスである。形状関数の基底分解を利用するGAMの全く新しいサブファミリーを提案する。少数の基底関数はすべての機能で共有され、与えられたタスクに対して共同で学習される。
論文参考訳（メタデータ） (2022-05-27T17:31:19Z)
Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文参考訳（メタデータ） (2021-04-23T02:56:02Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)
BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文参考訳（メタデータ） (2020-03-24T23:00:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。