論文の概要: Foldable SuperNets: Scalable Merging of Transformers with Different Initializations and Tasks
- arxiv url: http://arxiv.org/abs/2410.01483v1
- Date: Wed, 2 Oct 2024 12:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:34:40.161702
- Title: Foldable SuperNets: Scalable Merging of Transformers with Different Initializations and Tasks
- Title(参考訳): Foldable SuperNets: 初期化とタスクの異なるトランスフォーマーのスケーラブルなマージ
- Authors: Edan Kinderman, Itay Hubara, Haggai Maron, Daniel Soudry,
- Abstract要約: Foldable SuperNet Merge (FS-Merge) は単純でデータ効率が良く、様々な幅のモデルをマージできる。
FS-Mergeは既存のメソッドを一貫して上回り、特に限られたデータシナリオにおいてSOTA結果を達成する。
- 参考スコア(独自算出の注目度): 31.962161747846114
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Many recent methods aim to merge neural networks (NNs) with identical architectures trained on different tasks to obtain a single multi-task model. Most existing works tackle the simpler setup of merging NNs initialized from a common pre-trained network, where simple heuristics like weight averaging work well. This work targets a more challenging goal: merging large transformers trained on different tasks from distinct initializations. First, we demonstrate that traditional merging methods fail catastrophically in this setup. To overcome this challenge, we propose Foldable SuperNet Merge (FS-Merge), a method that optimizes a SuperNet to fuse the original models using a feature reconstruction loss. FS-Merge is simple, data-efficient, and capable of merging models of varying widths. We test FS-Merge against existing methods, including knowledge distillation, on MLPs and transformers across various settings, sizes, tasks, and modalities. FS-Merge consistently outperforms them, achieving SOTA results, particularly in limited data scenarios.
- Abstract(参考訳): 最近の多くの手法は、異なるタスクでトレーニングされた同一アーキテクチャとニューラルネットワーク(NN)をマージして、単一のマルチタスクモデルを得ることを目的としている。
既存の作業の多くは、一般的なトレーニング済みネットワークから初期化されたNNのマージの簡単なセットアップに取り組み、重量平均化のような単純なヒューリスティックがうまく機能する。
この作業は、さまざまなタスクでトレーニングされた大きなトランスフォーマーと、別の初期化とのマージという、より困難な目標を目標としています。
まず、従来のマージ手法が破滅的に失敗することを示す。
この課題を克服するために,スーパーネットを最適化したFoldable SuperNet Merge (FS-Merge)を提案する。
FS-Mergeは単純でデータ効率が高く、様々な幅のモデルをマージできる。
FS-Mergeは、知識蒸留を含む既存の手法に対して、様々な設定、サイズ、タスク、モダリティにまたがるMDPやトランスフォーマーでテストする。
FS-Mergeは、特に限られたデータシナリオにおいて、SOTA結果を達成することで、それらを一貫して上回る。
関連論文リスト
- Merging Vision Transformers from Different Tasks and Domains [46.40701388197936]
この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
論文 参考訳(メタデータ) (2023-12-25T09:32:28Z) - Efficient Stitchable Task Adaptation [47.94819192325723]
そこで本研究では,高度調整型モデルのパレットを効率よく作成するための新しいフレームワークであるEfficient Stitchable Task Adaptation (ESTA)を提案する。
具体的には、縫合物間で低ランク更新を共有するために、パラメータ効率の高いファインチューニングを第1に調整する。
簡単なが効果的なワンステージデプロイメントパイプラインを合理化し、デプロイすべき重要な縫合を見積もる。
論文 参考訳(メタデータ) (2023-11-29T04:31:35Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - Factorized Tensor Networks for Multi-Task and Multi-Domain Learning [17.618186852259015]
独立した単一タスク/ドメインネットワークに匹敵する精度を達成できる因子テンソルネットワーク(FTN)を提案する。
FTNは既存の手法に比べてタスク固有のパラメータがかなり少ない。
本研究では,異なるバックボーンを持つ畳み込み型アーキテクチャとトランスフォーマー型アーキテクチャの実験を行った。
論文 参考訳(メタデータ) (2023-10-09T19:59:59Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - Stitchable Neural Networks [40.8842135978138]
モデル展開のための新しいスケーラブルで効率的なフレームワークであるStitchable Neural Networks (SN-Net)を紹介する。
SN-Netは、アンカーをブロック/レイヤに分割し、単純な縫合層で縫合して、アンカーから別のアンカーへのアクティベーションをマッピングする。
ImageNet分類の実験では、SN-Netは、訓練された多くのネットワークよりも、オンパーまたはさらに優れたパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2023-02-13T18:37:37Z) - SuperShaper: Task-Agnostic Super Pre-training of BERT Models with
Variable Hidden Dimensions [2.8583189395674653]
SuperShaper は NLU モデルのタスクに依存しない事前学習手法である。
異なる形状で多数のトランスフォーマーモデルを同時に事前訓練する。
SuperShaperは、精度とモデルサイズを効果的にトレードオフするネットワークを発見する。
論文 参考訳(メタデータ) (2021-10-10T05:44:02Z) - What's Hidden in a One-layer Randomly Weighted Transformer? [100.98342094831334]
1層にランダムに重み付けされたニューラルネットワークの中に埋もれており、素晴らしいパフォーマンスを達成することができる。
IWSLT14/WMT14でトレーニングされたTransformerの小型/ベースの性能は98%/92% (34.14/25.24 BLEU) に匹敵する。
論文 参考訳(メタデータ) (2021-09-08T21:22:52Z) - Transfer Learning for Sequence Generation: from Single-source to
Multi-source [50.34044254589968]
そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。
提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-05-31T09:12:38Z) - MutualNet: Adaptive ConvNet via Mutual Learning from Different Model
Configurations [51.85020143716815]
MutualNetは、リソース制約の多様なセットで実行できる単一のネットワークを訓練するために提案します。
提案手法は,様々なネットワーク幅と入力解像度を持つモデル構成のコホートを訓練する。
MutualNetは、さまざまなネットワーク構造に適用できる一般的なトレーニング方法論です。
論文 参考訳(メタデータ) (2021-05-14T22:30:13Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。