論文の概要: Merging Text Transformer Models from Different Initializations
- arxiv url: http://arxiv.org/abs/2403.00986v2
- Date: Thu, 7 Mar 2024 18:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 16:35:42.762129
- Title: Merging Text Transformer Models from Different Initializations
- Title(参考訳): 異なる初期化によるテキストトランスモデルの融合
- Authors: Neha Verma, Maha Elbayad
- Abstract要約: 異なるTransformer minimaが類似した特徴を学習する程度について検討する。
損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。
以上の結果から,これらのモデルのミニマは従来理解されていたよりもシャープで孤立していないことが明らかとなった。
- 参考スコア(独自算出の注目度): 7.768975909119287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work on one-shot permutation-based model merging has shown impressive
low- or zero-barrier mode connectivity between models from completely different
initializations. However, this line of work has not yet extended to the
Transformer architecture, despite its dominant popularity in the language
domain. Therefore, in this work, we investigate the extent to which separate
Transformer minima learn similar features, and propose a model merging
technique to investigate the relationship between these minima in the loss
landscape. The specifics of the architecture, like its residual connections,
multi-headed attention, and discrete, sequential input, require specific
interventions in order to compute model permutations that remain within the
same functional equivalence class. In merging these models with our method, we
consistently find lower loss barriers between minima compared to model
averaging for several models trained on a masked-language modeling task or
fine-tuned on a language understanding benchmark. Our results show that the
minima of these models are less sharp and isolated than previously understood,
and provide a basis for future work on merging separately trained Transformer
models.
- Abstract(参考訳): 最近の1ショットの置換に基づくモデルマージの研究は、全く異なる初期化からモデル間の顕著な低またはゼロバリアモード接続を示している。
しかし、言語領域での主要な人気にもかかわらず、この一連の作業はまだTransformerアーキテクチャにまで拡張されていない。
そこで本研究では,トランスフォーマー・ミニマが類似した特徴を学習する程度について検討し,損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。
アーキテクチャの特異性、例えば残差接続、マルチヘッドの注意、離散的な逐次入力は、同じ関数同値クラスに属するモデル置換を計算するために特定の介入を必要とする。
これらのモデルと手法をマージすると、マスク付き言語モデリングタスクや言語理解ベンチマークで微調整された複数のモデルに対して、モデル平均化よりもミニマ間の損失障壁が小さくなる。
以上の結果から,これらのモデルのミニマは従来よりシャープで孤立度が低く,今後は個別に訓練したTransformerモデルを統合するための基盤となることが示唆された。
関連論文リスト
- Training-Free Pretrained Model Merging [40.437790895994766]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Learning non-stationary and discontinuous functions using clustering,
classification and Gaussian process modelling [0.0]
非滑らかな関数の近似に対する3段階のアプローチを提案する。
この考え方は、システムの局所的な振る舞いや体制に従って空間を分割し、局所的なサロゲートを構築することである。
本手法は, 引張膜構造の2つの解析関数と有限要素モデルを用いて検証し, 検証した。
論文 参考訳(メタデータ) (2022-11-30T11:11:56Z) - Artificial Interrogation for Attributing Language Models [0.0]
この課題は、人気言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。
コンテストの目標は、どのモデルがどのベースモデルに由来するかを特定することである。
両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。
論文 参考訳(メタデータ) (2022-11-20T05:46:29Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Linear Connectivity Reveals Generalization Strategies [54.947772002394736]
微調整されたモデルのいくつかは、それらの間の線形経路における損失を増大させる大きな障壁を持つ。
テスト損失面上で線形に接続されているが、クラスタ外のモデルから切り離されている異なるモデルのクラスタが見つかる。
我々の研究は、損失面の幾何学がモデルを異なる関数へと導く方法を示している。
論文 参考訳(メタデータ) (2022-05-24T23:43:02Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Improving the Reconstruction of Disentangled Representation Learners via
Multi-Stage Modelling [36.511724015405036]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
モデルが相関変数を学習するのに十分な能力を持っていないため,不整合表現学習と再構成品質のトレードオフがもたらされる。
本稿では,既存の不整合表現学習手法を用いて,非整合因子をまず学習する,新しい多段階モデリング手法を提案する。
提案するマルチステージモデルは,複数の標準ベンチマークにおいて等価なアンタングル性能を有する現在の最先端手法よりも,はるかに高い再現性を有することを示す。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z) - Pattern Similarity-based Machine Learning Methods for Mid-term Load
Forecasting: A Comparative Study [0.0]
パターン類似性に基づく年次電力需要予測手法について検討した。
モデルの不可欠な部分は、時系列シーケンスのパターンを用いた時系列表現である。
近接モデル,ファジィ近傍モデル,カーネル回帰モデル,一般回帰ニューラルネットワークの4つのモデルを考える。
論文 参考訳(メタデータ) (2020-03-03T12:14:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。