論文の概要: Knowledge is a Region in Weight Space for Fine-tuned Language Models
- arxiv url: http://arxiv.org/abs/2302.04863v2
- Date: Sun, 12 Feb 2023 11:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 11:31:16.328280
- Title: Knowledge is a Region in Weight Space for Fine-tuned Language Models
- Title(参考訳): 知識は微調整言語モデルのための重み空間の領域である
- Authors: Almog Gueta, Elad Venezian, Colin Raffel, Noam Slonim, Yoav Katz,
Leshem Choshen
- Abstract要約: 異なるモデルの重み空間と下層の損失景観が相互に相互に相互に相互に相互に関連しているかを検討する。
同じデータセット上で微調整された言語モデルが、重み空間において厳密なクラスタを形成することを示す。
また、モデル間の領域を横断するトラバースは、ファインチューニングによって見つかるモデルよりも、比較可能またはそれ以上に優れた新しいモデルに達することを示す。
- 参考スコア(独自算出の注目度): 37.58983351210097
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Research on neural networks has largely focused on understanding a single
model trained on a single dataset. However, relatively little is known about
the relationships between different models, especially those trained or tested
on different datasets. We address this by studying how the weight space and
underlying loss landscape of different models are interconnected.
Specifically, we demonstrate that fine-tuned models that were optimized for
high performance, reside in well-defined regions in weight space, and vice
versa -- that any model that resides anywhere in those regions also has high
performance. Specifically, we show that language models that have been
fine-tuned on the same dataset form a tight cluster in the weight space and
that models fine-tuned on different datasets from the same underlying task form
a looser cluster. Moreover, traversing around the region between the models
reaches new models that perform comparably or even better than models found via
fine-tuning, even on tasks that the original models were not fine-tuned on.
Our findings provide insight into the relationships between models,
demonstrating that a model positioned between two similar models can acquire
the knowledge of both. We leverage this finding and design a method to pick a
better model for efficient fine-tuning. Specifically, we show that starting
from the center of the region is as good or better than the pre-trained model
in 11 of 12 datasets and improves accuracy by 3.06 on average.
- Abstract(参考訳): ニューラルネットワークの研究は、単一のデータセットでトレーニングされた単一のモデルを理解することに集中してきた。
しかしながら、異なるモデル、特に異なるデータセットでトレーニングまたはテストされたモデル間の関係について、比較的知られていない。
我々は、異なるモデルの重量空間と下層の損失景観がどのように相互に関連付けられているかを研究することでこの問題に対処する。
具体的には、ハイパフォーマンスに最適化された微調整されたモデルが、重み空間内の明確に定義された領域に存在し、その逆もまた、これらの領域に存在するモデルがハイパフォーマンスであることを示す。
具体的には、同じデータセットに微調整された言語モデルが重み空間の密クラスタを形成し、同じタスクから異なるデータセットに微調整されたモデルがより緩いクラスタを形成することを示す。
さらに、モデル間の領域を横切ると、元のモデルが微調整されていないタスクであっても、微調整によって発見されたモデルと同等あるいはそれ以上の性能を持つ新しいモデルに到達します。
本研究は, モデル間の関係を考察し, 2つの類似モデルの間に配置されたモデルが両者の知識を得られることを示した。
この発見と設計を利用して、効率的な微調整のためのより良いモデルを選択する。
具体的には、12のデータセットのうち11のトレーニング済みモデルよりも、リージョンの中心から始める方が良いか良いかを示し、平均で3.06の精度向上を示す。
関連論文リスト
- Exploring Model Kinship for Merging Large Language Models [52.01652098827454]
本稿では,大規模言語モデル間の類似性や関連性の程度であるモデル親和性を紹介する。
モデル統合後の性能向上とモデル親和性の間には,一定の関係があることが判明した。
我々は新しいモデルマージ戦略を提案する。Top-k Greedy Merging with Model Kinship。
論文 参考訳(メタデータ) (2024-10-16T14:29:29Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Model Selection with Model Zoo via Graph Learning [45.30615308692713]
本稿では,グラフ学習問題としてモデル選択を再構成する新しいフレームワークであるTransferGraphを紹介する。
我々は,TransferGraphが本質的なモデル-データセット関係を捕捉し,予測性能と実際の微調整結果との相関性を最大32%向上させる効果を,最先端の手法と比較した。
論文 参考訳(メタデータ) (2024-04-05T09:50:00Z) - Transfer Learning with Point Transformers [3.678615604632945]
Point Transformerは、Point Cloudデータの分類、セグメンテーション、検出のための最先端モデルである。
モデルNet10データセットに基づくこれらの注目ネットワークの分類性能について検討し、3次元MNISTデータセットを微調整後に分類するためにトレーニングされたモデルを用いた。
論文 参考訳(メタデータ) (2024-04-01T01:23:58Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Revealing Secrets From Pre-trained Models [2.0249686991196123]
トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。
本研究では,事前学習モデルと微調整モデルが重み値に非常によく似ていることを示す。
ブラックボックスの被害者モデルで使用されるモデルアーキテクチャと事前訓練モデルを明らかにするモデル抽出攻撃を提案する。
論文 参考訳(メタデータ) (2022-07-19T20:19:03Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。