論文の概要: Knowledge is a Region in Weight Space for Fine-tuned Language Models
- arxiv url: http://arxiv.org/abs/2302.04863v3
- Date: Thu, 12 Oct 2023 18:42:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 18:17:39.351792
- Title: Knowledge is a Region in Weight Space for Fine-tuned Language Models
- Title(参考訳): 知識は微調整言語モデルのための重み空間の領域である
- Authors: Almog Gueta, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz,
Leshem Choshen
- Abstract要約: 異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセットで微調整された言語モデルが重み空間で厳密なクラスタを形成し、同じタスクから異なるデータセットで微調整されたモデルがより緩いクラスタを形成することを示す。
- 参考スコア(独自算出の注目度): 48.589822853418404
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research on neural networks has focused on understanding a single model
trained on a single dataset. However, relatively little is known about the
relationships between different models, particularly those trained or tested on
different datasets. We address this by studying how the weight space and the
underlying loss landscape of different models are interconnected.
Specifically, we demonstrate that finetuned models that were optimized for
high performance, reside in well-defined regions in weight space, and vice
versa -- that any model that resides anywhere in those regions also exhibits
high performance. Notably, we show that language models that have been
finetuned on the same dataset form a tight cluster in the weight space, while
models finetuned on different datasets from the same underlying task form a
looser cluster. Moreover, traversing around the region between the models leads
to new models that perform comparably or even better than models obtained via
finetuning, even on tasks that the original models were not finetuned on.
Our findings provide insight into the relationships between models,
demonstrating that a model positioned between two similar models can acquire
the knowledge of both. We leverage this and design a method for selecting a
better model for efficient finetuning. Specifically, we show that starting from
the center of the region is as effective, if not more, than using the
pretrained model in 11 out of 12 datasets, resulting in an average accuracy
improvement of 3.06.
- Abstract(参考訳): ニューラルネットワークの研究は、単一のデータセットでトレーニングされた単一のモデルを理解することに集中している。
しかしながら、異なるモデル、特に異なるデータセットでトレーニングまたはテストされたモデル間の関係について、比較的知られていない。
我々は、異なるモデルの重み空間と下層の損失景観がどのように相互接続されているかを研究することでこの問題に対処する。
具体的には、高性能に最適化された微調整されたモデルが、重み空間内の明確に定義された領域に存在し、その逆もまた高いパフォーマンスを示すことを実証する。
特に、同じデータセットで微調整された言語モデルは重み空間において密なクラスタを形成し、同じタスクの異なるデータセットで微調整されたモデルはより疎いクラスタを形成する。
さらに、モデル間の領域を横切ると、元のモデルが微調整されていないタスクであっても、微調整によって得られるモデルと同等あるいはそれ以上の性能を発揮する新しいモデルが生まれる。
本研究は, モデル間の関係を考察し, 2つの類似モデルの間に配置されたモデルが両者の知識を得られることを示した。
これを利用して、効率的な微調整のためのより良いモデルを選択する方法を設計する。
具体的には、12データセット中11データセットで事前訓練されたモデルを使用するよりも、領域の中心から始める方が効果的であることが示され、平均精度は3.06。
関連論文リスト
- Model Selection with Model Zoo via Graph Learning [45.30615308692713]
本稿では,グラフ学習問題としてモデル選択を再構成する新しいフレームワークであるTransferGraphを紹介する。
我々は,TransferGraphが本質的なモデル-データセット関係を捕捉し,予測性能と実際の微調整結果との相関性を最大32%向上させる効果を,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-04-05T09:50:00Z) - Transfer Learning with Point Transformers [3.678615604632945]
Point Transformerは、Point Cloudデータの分類、セグメンテーション、検出のための最先端モデルである。
モデルNet10データセットに基づくこれらの注目ネットワークの分類性能について検討し、3次元MNISTデータセットを微調整後に分類するためにトレーニングされたモデルを用いた。
論文 参考訳(メタデータ) (2024-04-01T01:23:58Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Contrastive Neighborhood Alignment [81.65103777329874]
本稿では,学習特徴のトポロジを維持するための多様体学習手法であるContrastive Neighborhood Alignment(CNA)を提案する。
対象モデルは、対照的な損失を用いて、ソース表現空間の局所構造を模倣することを目的としている。
CNAは3つのシナリオで説明される: 多様体学習、モデルが元のデータの局所的なトポロジーを次元還元された空間で維持する、モデル蒸留、小さな学生モデルがより大きな教師を模倣するために訓練される、レガシーモデル更新、より強力なモデルに置き換えられる、という3つのシナリオである。
論文 参考訳(メタデータ) (2022-01-06T04:58:31Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。