Fugu-MT 論文翻訳(概要): Representing Model Weights with Language using Tree Experts

論文の概要: Representing Model Weights with Language using Tree Experts

arxiv url: http://arxiv.org/abs/2410.13569v1
Date: Thu, 17 Oct 2024 17:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.938937
Title: Representing Model Weights with Language using Tree Experts
Title（参考訳）: 木エキスパートを用いた言語によるモデルウェイト表現
Authors: Eliahu Horwitz, Bar Cavia, Jonathan Kahana, Yedid Hoshen,
Abstract要約: 本稿では,モデル重みと言語の両方を組み込んだ共同空間内のモデルを表現することを学ぶ。 Probing Experts (ProbeX) は理論的に動機づけられた軽量な探査手法である。以上の結果から, ProbeX は大規模モデルの重みを共有重み付き埋め込み空間に効果的にマッピングできることが示唆された。
参考スコア（独自算出の注目度）: 39.90685550999956
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing availability of public models begs the question: can we train neural networks that use other networks as input? This paper learns to represent models within a joint space that embeds both model weights and language. However, machine learning on model weights is challenging as model weights often exhibit significant variation unrelated to the models' semantic properties (nuisance variation). We identify a key property of real-world models: most public models belong to a small set of Model Trees, where all models within a tree are fine-tuned from a common ancestor (e.g., a foundation model). Importantly, we find that within each tree there is less nuisance variation between models. For example, while classifying models according to their training dataset generally requires complex architectures, in our case, even a linear classifier trained on a single layer is often effective. While effective, linear layers are computationally expensive as model weights are very high dimensional. To address this, we introduce Probing Experts (ProbeX), a theoretically motivated, lightweight probing method. Notably, ProbeX is the first probing method designed to learn from the weights of just a single model layer. We also construct and release a dataset that simulates the structure of public model repositories. Our results show that ProbeX can effectively map the weights of large models into a shared weight-language embedding space. Furthermore, we demonstrate the impressive generalization of our method, achieving zero-shot model classification and retrieval.
Abstract（参考訳）: 他のネットワークを入力として使用するニューラルネットワークをトレーニングできるだろうか? 本稿では,モデル重みと言語の両方を組み込んだ共同空間内のモデルを表現することを学ぶ。しかし、モデルの重みに関する機械学習は、モデルのセマンティック特性(ニュアンス変動)とは無関係な有意な変動を示すことが多いため、困難である。ほとんどの公開モデルはモデルツリーの小さな集合に属し、ツリー内のすべてのモデルは共通の祖先(例えば基礎モデル)から微調整される。重要なのは、各木にはモデル間のニュアンスの変化が少ないことだ。例えば、トレーニングデータセットに従ってモデルを分類するには、一般的に複雑なアーキテクチャが必要ですが、私たちの場合、単一の層でトレーニングされた線形分類器でさえ効果的です。有効ではあるが、モデルウェイトが非常に高次元であるため、線形層は計算的に高価である。この問題に対処するために,理論上動機付けされた軽量な探索手法であるProbeXを紹介した。注目すべきは、ProbeXは単一のモデルレイヤーの重みから学ぶために設計された最初のプローブ手法である。また、パブリックモデルリポジトリの構造をシミュレートするデータセットを構築し、リリースします。以上の結果から, ProbeX は大規模モデルの重みを共有重み付き埋め込み空間に効果的にマッピングできることが示唆された。さらに、ゼロショットモデル分類と検索を達成し、本手法の印象的な一般化を実証する。

関連論文リスト

Soup-of-Experts: Pretraining Specialist Models via Parameters Averaging [23.44999968321367]
Soup-of-Expertsは、最小の計算コストでテスト時にモデルをインスタンス化できます。提案手法は,複数の言語モデリングタスクにおいて,小さな特化モデルを迅速に獲得する方法を実証する。
論文参考訳（メタデータ） (2025-02-03T20:33:20Z)
Exploring space efficiency in a tree-based linear model for extreme multi-label classification [11.18858602369985]
Extreme Multi-label Classification (XMC) は、複数のラベルから関連するサブセットを特定することを目的としている。 XMCの様々なアプローチの中で、ツリーベースの線形モデルは効率と単純さの点で有効である。本研究では,その空間における理論的および実証的な解析を行い,疎データの仮定の下で木モデルを記憶する。
論文参考訳（メタデータ） (2024-10-12T15:02:40Z)
On the Origin of Llamas: Model Tree Heritage Recovery [39.08927346274156]
本稿では,ニューラルネットワークにおけるモデルツリー発見のためのモデルツリー復元(MoTHer Recovery)の課題を紹介する。我々の仮説では、モデルウェイトがこの情報を符号化し、ウェイトを考慮すれば、基盤となるツリー構造をデコードすることが課題である。 MoTHerリカバリは、検索エンジンによるインターネットのインデックス化に似た、エキサイティングな長期的アプリケーションを提供する。
論文参考訳（メタデータ） (2024-05-28T17:59:51Z)
BEND: Bagging Deep Learning Training Based on Efficient Neural Network Diffusion [56.9358325168226]
BEND(Efficient Neural Network Diffusion)に基づくバッグング深層学習学習アルゴリズムを提案する。我々のアプローチは単純だが効果的であり、まず複数のトレーニングされたモデルの重みとバイアスを入力として、オートエンコーダと潜伏拡散モデルを訓練する。提案したBENDアルゴリズムは,元のトレーニングモデルと拡散モデルの両方の平均および中央値の精度を一貫して向上させることができる。
論文参考訳（メタデータ） (2024-03-23T08:40:38Z)
A Dynamical Model of Neural Scaling Laws [79.59705237659547]
ネットワークトレーニングと一般化の解決可能なモデルとして,勾配降下で訓練されたランダムな特徴モデルを分析する。我々の理論は、データの繰り返し再利用により、トレーニングとテスト損失のギャップが徐々に増大することを示している。
論文参考訳（メタデータ） (2024-02-02T01:41:38Z)
Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-11-30T18:58:26Z)
Knowledge is a Region in Weight Space for Fine-tuned Language Models [48.589822853418404]
異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
論文参考訳（メタデータ） (2023-02-09T18:59:18Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Part-Based Models Improve Adversarial Robustness [57.699029966800644]
人間の事前知識とエンドツーエンドの学習を組み合わせることで、ディープニューラルネットワークの堅牢性を向上させることができることを示す。我々のモデルは、部分分割モデルと小さな分類器を組み合わせて、オブジェクトを同時に部品に分割するようにエンドツーエンドに訓練されている。実験の結果,これらのモデルによりテクスチャバイアスが低減され,一般的な汚職に対する堅牢性が向上し,相関が急上昇することが示唆された。
論文参考訳（メタデータ） (2022-09-15T15:41:47Z)
Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文参考訳（メタデータ） (2022-07-19T20:19:03Z)
Neural Basis Models for Interpretability [33.51591891812176]
一般化加法モデル(GAMs)は本質的に解釈可能なモデルのクラスである。形状関数の基底分解を利用するGAMの全く新しいサブファミリーを提案する。少数の基底関数はすべての機能で共有され、与えられたタスクに対して共同で学習される。
論文参考訳（メタデータ） (2022-05-27T17:31:19Z)
Transfer training from smaller language model [6.982133308738434]
小型の訓練済みモデルを大規模モデルに変更することで、トレーニング時間とリソースコストを節約する方法を見つけます。ターゲットモデルを複数のデータセットでテストし、ソースモデルといまだに同等であることを示す。
論文参考訳（メタデータ） (2021-04-23T02:56:02Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)
BigNAS: Scaling Up Neural Architecture Search with Big Single-Stage Models [59.95091850331499]
予測精度を高めるためには,重みの処理後処理が必要であるという従来の知恵に挑戦するアプローチであるBigNASを提案する。発見されたモデルファミリーであるBigNASModelsは76.5%から80.9%の範囲でトップ1の精度を達成した。
論文参考訳（メタデータ） (2020-03-24T23:00:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。