論文の概要: ZipIt! Merging Models from Different Tasks without Training
- arxiv url: http://arxiv.org/abs/2305.03053v3
- Date: Wed, 13 Mar 2024 02:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 18:57:04.014329
- Title: ZipIt! Merging Models from Different Tasks without Training
- Title(参考訳): ZipIt! トレーニングなしで異なるタスクからモデルをマージする
- Authors: George Stoica, Daniel Bolya, Jakob Bjorner, Pratik Ramesh, Taylor
Hearn, Judy Hoffman
- Abstract要約: ZipIt!」は、同じアーキテクチャの2つの任意のモデルをマージする一般的な方法である。
これら2つの変更が組み合わさって、以前の作業よりも20~60%改善されていることが分かりました。
- 参考スコア(独自算出の注目度): 20.2479633507354
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Typical deep visual recognition models are capable of performing the one task
they were trained on. In this paper, we tackle the extremely difficult problem
of combining distinct models with different initializations, each solving a
separate task, into one multi-task model without any additional training. Prior
work in model merging permutes one model to the space of the other then
averages them together. While this works for models trained on the same task,
we find that this fails to account for the differences in models trained on
disjoint tasks. Thus, we introduce "ZipIt!", a general method for merging two
arbitrary models of the same architecture that incorporates two simple
strategies. First, in order to account for features that aren't shared between
models, we expand the model merging problem to allow for merging features
within each model by defining a general "zip" operation. Second, we add support
for partially zipping the models up until a specified layer, naturally creating
a multi-head model. We find that these two changes combined account for 20-60%
improvement over prior work, making it more feasible to merge models trained on
disjoint tasks without retraining.
- Abstract(参考訳): 典型的な深い視覚認識モデルは、訓練された1つのタスクを実行することができる。
本稿では,異なる初期化モデルと異なる初期化モデルを組み合わせて,個別のタスクを1つのマルチタスクモデルに追加の訓練を加えることなく組み合わせることの難しさに対処する。
モデルマージにおける以前の作業は、1つのモデルをもう1つのモデルの空間に置換し、それらを平均化する。
これは同じタスクでトレーニングされたモデルに当てはまるが、非結合タスクでトレーニングされたモデルの違いを考慮するのに失敗する。
そこで我々は,2つの簡単な戦略を組み込んだ,同じアーキテクチャの2つの任意のモデルをマージする一般的な手法であるZipIt!を紹介した。
まず、モデル間で共有されていない機能を説明するために、一般的な「zip」操作を定義して各モデル内の機能をマージできるように、モデルマージ問題を拡張します。
第二に、特定のレイヤまでモデルを部分的にジッピングするサポートを追加し、自然にマルチヘッドモデルを作成します。
これらの2つの変更は、事前の作業よりも20~60%改善されているため、非結合タスクでトレーニングされたモデルを再トレーニングせずにマージしやすくなる。
関連論文リスト
- Training-Free Pretrained Model Merging [40.437790895994766]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Concrete Subspace Learning based Interference Elimination for Multi-task
Model Fusion [86.6191592951269]
一般的な事前訓練された大規模モデルから微調整されたマージングモデルは、様々なタスクに特化しているが、様々なタスクでうまく機能するマルチタスクモデルを構築するための安価でスケーラブルな戦略として実証されている。
本稿では、共通低次元部分空間を同定し、その共有情報トラック干渉問題を性能を犠牲にすることなく利用するための連続緩和(Concrete)部分空間学習法を提案する。
論文 参考訳(メタデータ) (2023-12-11T07:24:54Z) - Merging by Matching Models in Task Subspaces [98.75848162153773]
モデルマージが方程式の線形系を解くとみなす方法が定式化される。
共役勾配法は閉形式解より優れていることを示す。
我々のフレームワークはマルチタスクモデルと中間タスクモデルの統合において最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-07T14:59:15Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - UnIVAL: Unified Model for Image, Video, Audio and Language Tasks [105.77733287326308]
UnIVALモデルは2つのモードを超えて、テキスト、画像、ビデオ、オーディオを1つのモデルに統合する。
本モデルは,タスクバランスとマルチモーダルカリキュラム学習に基づいて,多くのタスクに対して効率的に事前学習を行う。
統一モデルにより、重み一般化によるマルチモーダルモデルの融合に関する新しい研究を提案する。
論文 参考訳(メタデータ) (2023-07-30T09:48:36Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - GAN Cocktail: mixing GANs without dataset access [18.664733153082146]
実世界でしばしば発生する2つの制約を考えると、モデルマージの問題に取り組みます。
第一段階では、モデルルートと呼ぶ手法により、全てのモデルの重みを同じパラメータ空間に変換する。
第2段階では、ルートモデルの重みを平均化し、元のトレーニングされたモデルによって生成されたデータのみを使用して、特定のドメイン毎に微調整することで、ルートモデルとマージする。
論文 参考訳(メタデータ) (2021-06-07T17:59:04Z) - Lifelong Learning with Searchable Extension Units [21.17631355880764]
本稿では,検索可能拡張ユニット(SEU)という生涯学習フレームワークを提案する。
これは、事前に定義されたオリジナルのモデルの必要性を断ち切り、異なるタスクのための特定の拡張ユニットを検索する。
我々のアプローチは、破滅的な忘れることなく、はるかにコンパクトなモデルを得ることができる。
論文 参考訳(メタデータ) (2020-03-19T03:45:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。