論文の概要: Merging Vision Transformers from Different Tasks and Domains
- arxiv url: http://arxiv.org/abs/2312.16240v1
- Date: Mon, 25 Dec 2023 09:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 20:30:40.360801
- Title: Merging Vision Transformers from Different Tasks and Domains
- Title(参考訳): タスクとドメインの異なる視覚変換器のマージ
- Authors: Peng Ye, Chenyu Huang, Mingzhu Shen, Tao Chen, Yongqi Huang, Yuning
Zhang, Wanli Ouyang
- Abstract要約: この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)でトレーニングされたさまざまなビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としている。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
- 参考スコア(独自算出の注目度): 46.40701388197936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work targets to merge various Vision Transformers (ViTs) trained on
different tasks (i.e., datasets with different object categories) or domains
(i.e., datasets with the same categories but different environments) into one
unified model, yielding still good performance on each task or domain. Previous
model merging works focus on either CNNs or NLP models, leaving the ViTs
merging research untouched. To fill this gap, we first explore and find that
existing model merging methods cannot well handle the merging of the whole ViT
models and still have improvement space. To enable the merging of the whole
ViT, we propose a simple-but-effective gating network that can both merge all
kinds of layers (e.g., Embedding, Norm, Attention, and MLP) and select the
suitable classifier. Specifically, the gating network is trained by unlabeled
datasets from all the tasks (domains), and predicts the probability of which
task (domain) the input belongs to for merging the models during inference. To
further boost the performance of the merged model, especially when the
difficulty of merging tasks increases, we design a novel metric of model weight
similarity, and utilize it to realize controllable and combined weight merging.
Comprehensive experiments on kinds of newly established benchmarks, validate
the superiority of the proposed ViT merging framework for different tasks and
domains. Our method can even merge beyond 10 ViT models from different vision
tasks with a negligible effect on the performance of each task.
- Abstract(参考訳): この作業は、異なるタスク(オブジェクトカテゴリの異なるデータセット)やドメイン(同じカテゴリの異なるデータセット)で訓練された様々なビジョントランスフォーマー(ViT)を1つの統一モデルにマージすることを目的としており、各タスクやドメインでまだ良いパフォーマンスが得られる。
これまでのモデルマージ作業はCNNまたはNLPモデルに重点を置いており、ViTsのマージ研究は未修正のままである。
このギャップを埋めるため、我々はまず、既存のモデルマージメソッドがvitモデル全体のマージをうまく処理できないこと、そしてまだ改善の余地があることを発見します。
ViT全体のマージを可能にするために,すべてのレイヤ(例えば,埋め込み,ノーム,アテンション,MDP)をマージして,適切な分類器を選択する,単純だが効果的なゲーティングネットワークを提案する。
具体的には、ゲーティングネットワークは、すべてのタスク(ドメイン)からラベルのないデータセットによってトレーニングされ、推論中にモデルを統合するために入力がどのタスク(ドメイン)に属するかを予測する。
統合モデルの性能をさらに向上させるため、特に統合タスクの難易度が増加すると、モデルウェイト類似性の新たな指標を設計し、制御可能および複合重み付けを実現する。
新しく確立されたベンチマークの総合的な実験は、異なるタスクやドメインに対して提案されたViTマージフレームワークの優位性を検証する。
また,異なる視覚タスクから10個のViTモデルにマージすることで,各タスクの性能への影響を無視できる。
関連論文リスト
- Twin-Merging: Dynamic Integration of Modular Expertise in Model Merging [21.918559935122786]
モデルマージは、複数のタスク固有のモデルを、余分なトレーニングなしで単一のマルチタスクモデルに結合する、有望な方法である。
従来のモデルマージ手法は、微調整されたモデルに比べて大きな性能差を示すことが多い。
共有されたタスク固有の知識と排他的なタスク固有の知識の両方が、パフォーマンスのマージには不可欠であるが、排他的な知識を直接マージすることは、全体的なパフォーマンスを妨げていることを示す。
本稿では,1)知識を共有コンポーネントと排他コンポーネントにモジュール化し,冗長性を低減し効率を向上する圧縮,(2)共有およびタスク固有の知識を動的にマージする,という2つの主要な段階を包含する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:31:55Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - FAME-ViL: Multi-Tasking Vision-Language Model for Heterogeneous Fashion
Tasks [129.49630356651454]
ファシオンに着目した視覚・言語タスクのための多タスク学習手法(FAME-ViL)を提案する。
我々のFAME-ViLは、代替案よりも61.5%のパラメータを節約できるが、従来の独立的に訓練されたシングルタスクモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2023-03-04T19:07:48Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。