論文の概要: Knowledge is a Region in Weight Space for Fine-tuned Language Models
- arxiv url: http://arxiv.org/abs/2302.04863v2
- Date: Sun, 12 Feb 2023 11:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 11:31:16.328280
- Title: Knowledge is a Region in Weight Space for Fine-tuned Language Models
- Title(参考訳): 知識は微調整言語モデルのための重み空間の領域である
- Authors: Almog Gueta, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz,
Leshem Choshen
- Abstract要約: 異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセット上で微調整された言語モデルが、重み空間において厳密なクラスタを形成することを示す。
また、モデル間の領域を横断するトラバースは、ファインチューニングによって見つかるモデルよりも、比較可能またはそれ以上に優れた新しいモデルに達することを示す。
- 参考スコア(独自算出の注目度): 37.58983351210097
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research on neural networks has largely focused on understanding a single
model trained on a single dataset. However, relatively little is known about
the relationships between different models, especially those trained or tested
on different datasets. We address this by studying how the weight space and
underlying loss landscape of different models are interconnected.
Specifically, we demonstrate that fine-tuned models that were optimized for
high performance, reside in well-defined regions in weight space, and vice
versa -- that any model that resides anywhere in those regions also has high
performance. Specifically, we show that language models that have been
fine-tuned on the same dataset form a tight cluster in the weight space and
that models fine-tuned on different datasets from the same underlying task form
a looser cluster. Moreover, traversing around the region between the models
reaches new models that perform comparably or even better than models found via
fine-tuning, even on tasks that the original models were not fine-tuned on.
Our findings provide insight into the relationships between models,
demonstrating that a model positioned between two similar models can acquire
the knowledge of both. We leverage this finding and design a method to pick a
better model for efficient fine-tuning. Specifically, we show that starting
from the center of the region is as good or better than the pre-trained model
in 11 of 12 datasets and improves accuracy by 3.06 on average.
- Abstract(参考訳): ニューラルネットワークの研究は、単一のデータセットでトレーニングされた単一のモデルを理解することに集中してきた。
しかしながら、異なるモデル、特に異なるデータセットでトレーニングまたはテストされたモデル間の関係について、比較的知られていない。
我々は、異なるモデルの重量空間と下層の損失景観がどのように相互に関連付けられているかを研究することでこの問題に対処する。
具体的には、ハイパフォーマンスに最適化された微調整されたモデルが、重み空間内の明確に定義された領域に存在し、その逆もまた、これらの領域に存在するモデルがハイパフォーマンスであることを示す。
具体的には、同じデータセットに微調整された言語モデルが重み空間の密クラスタを形成し、同じタスクから異なるデータセットに微調整されたモデルがより緩いクラスタを形成することを示す。
さらに、モデル間の領域を横切ると、元のモデルが微調整されていないタスクであっても、微調整によって発見されたモデルと同等あるいはそれ以上の性能を持つ新しいモデルに到達します。
本研究は, モデル間の関係を考察し, 2つの類似モデルの間に配置されたモデルが両者の知識を得られることを示した。
この発見と設計を利用して、効率的な微調整のためのより良いモデルを選択する。
具体的には、12のデータセットのうち11のトレーニング済みモデルよりも、リージョンの中心から始める方が良いか良いかを示し、平均で3.06の精度向上を示す。
関連論文リスト
- Budgeted Online Model Selection and Fine-Tuning via Federated Learning [26.823435733330705]
オンラインモデル選択では、候補モデルのセットからモデルを選択して、データのストリームで予測を実行する。
その後の候補モデルの選択は、パフォーマンスに決定的な影響を与えます。
本稿では,学習者グループ(クライアント)が十分なメモリを持つサーバと対話するオンラインフェデレーションモデル選択フレームワークを提案する。
提案したアルゴリズムを用いて、クライアントとサーバは微調整モデルと協調して非定常環境に適応する。
論文 参考訳(メタデータ) (2024-01-19T04:02:49Z) - Do the Frankenstein, or how to achieve better out-of-distribution
performance with manifold mixing model soup [1.0878040851637998]
画像分類のためのCLIPモデルを微調整すると, 融合モデルにより分配性能が大幅に向上することを示す。
また、ファインタニングが行われた元のデータセットに対して、より正確な精度を提供する。
論文 参考訳(メタデータ) (2023-08-28T06:13:32Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - It's the Best Only When It Fits You Most: Finding Related Models for
Serving Based on Dynamic Locality Sensitive Hashing [1.581913948762905]
トレーニングデータの作成は、生産や研究のためにディープラーニングモデルをデプロイするライフサイクルにおいて、しばしばボトルネックとなる。
本稿では,対象のデータセットと利用可能なモデルのトレーニングデータセットの類似性に基づいて,関連するモデルを検索してサービスするエンド・ツー・エンドプロセスを提案する。
論文 参考訳(メタデータ) (2020-10-13T22:52:13Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。