論文の概要: Merging Text Transformer Models from Different Initializations
- arxiv url: http://arxiv.org/abs/2403.00986v3
- Date: Mon, 16 Dec 2024 18:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:53:16.317351
- Title: Merging Text Transformer Models from Different Initializations
- Title(参考訳): 異なる初期化によるテキストトランスモデルの融合
- Authors: Neha Verma, Maha Elbayad,
- Abstract要約: 異なるTransformer minimaが類似した特徴を学習する程度について検討する。
損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。
以上の結果から,これらのモデルのミニマは従来理解されていたよりもシャープで孤立していないことが明らかとなった。
- 参考スコア(独自算出の注目度): 6.576256518248877
- License:
- Abstract: Recent work on permutation-based model merging has shown impressive low- or zero-barrier mode connectivity between models from completely different initializations. However, this line of work has not yet extended to the Transformer architecture, despite its dominant popularity in the language domain. Therefore, in this work, we investigate the extent to which separate Transformer minima learn similar features, and propose a model merging technique to investigate the relationship between these minima in the loss landscape. The specifics of the architecture, like its residual connections, multi-headed attention, and discrete, sequential input, require specific interventions in order to compute model permutations that remain within the same functional equivalence class. In merging these models with our method, we consistently find lower loss barriers between minima compared to model averaging, across models trained on a masked-language modeling task or fine-tuned on a language understanding benchmark. Our results show that the minima of these models are less sharp and isolated than previously understood, and provide a basis for future work on merging separately trained Transformer models.
- Abstract(参考訳): 置換に基づくモデルマージに関する最近の研究は、全く異なる初期化からモデル間の顕著な低またはゼロバリアモード接続を示している。
しかし、言語領域で圧倒的に人気があるにもかかわらず、この一連の作業はまだTransformerアーキテクチャにまで拡張されていない。
そこで本研究では,トランスフォーマー・ミニマが類似した特徴を学習する程度について検討し,損失景観におけるこれらのミニマの関係を調べるためのモデルマージ手法を提案する。
アーキテクチャの特異性、例えば残差接続、マルチヘッドの注意、離散的な逐次入力は、同じ関数同値クラスに属するモデル置換を計算するために特定の介入を必要とする。
これらのモデルと手法をマージすると、マスク付き言語モデリングタスクで訓練されたモデルや言語理解ベンチマークで微調整されたモデルに対して、モデル平均化よりもミニマ間の損失障壁が一貫して小さくなる。
以上の結果から,これらのモデルのミニマは従来よりシャープで孤立度が低く,今後は個別に訓練したTransformerモデルを統合するための基盤となることが示唆された。
関連論文リスト
- Collective Model Intelligence Requires Compatible Specialization [29.590052023903457]
モデルが専門化するにつれて、特徴空間構造における類似性が減少し、集合的使用能力の妨げとなることを示す。
我々は、互換性のある特殊化と呼ばれるものを通して、集合モデルインテリジェンスを達成するための新しい方向を提案する。
論文 参考訳(メタデータ) (2024-11-04T15:59:16Z) - Joint Fine-tuning and Conversion of Pretrained Speech and Language Models towards Linear Complexity [11.302828987873497]
本稿では,変換器モデルを線形時間置換器に変換し,目標タスクに微調整するクロスアーキテクチャ層蒸留(CALD)手法を提案する。
そこで本研究では,CALDが元のモデルの結果を効果的に回収できることを示す。
論文 参考訳(メタデータ) (2024-10-09T13:06:43Z) - Harmony in Diversity: Merging Neural Networks with Canonical Correlation Analysis [17.989809995141044]
相関解析に基づくCCAマージを提案する。
2モデル以上のモデルがマージされた場合、CCAは過去の方法よりもはるかにうまく機能することを示す。
論文 参考訳(メタデータ) (2024-07-07T14:21:04Z) - PLeaS -- Merging Models with Permutations and Least Squares [43.17620198572947]
モデル決定型PLeaSをマージする2段階のアルゴリズムを提案する。
PLeaSはアライメントを最大化することで各層のノードに部分的にマッチする。
マージされたモデルの重みをレイヤワイズ・リースト・スクエアの解として計算する。
論文 参考訳(メタデータ) (2024-07-02T17:24:04Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。
このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。
8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文 参考訳(メタデータ) (2023-06-15T10:48:59Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。
初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。
提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-06-04T14:39:03Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。