論文の概要: Representation Surgery for Multi-Task Model Merging
- arxiv url: http://arxiv.org/abs/2402.02705v1
- Date: Mon, 5 Feb 2024 03:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:00:33.833861
- Title: Representation Surgery for Multi-Task Model Merging
- Title(参考訳): マルチタスクモデルマージのための表現手術
- Authors: Enneng Yang and Li Shen and Zhenyi Wang and Guibing Guo and Xiaojun
Chen and Xingwei Wang and Dacheng Tao
- Abstract要約: マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、複数の独立して訓練されたモデルをマージして、共同トレーニングのために生データを収集する代わりにMLLを実行する。
既存のモデルマージスキームの表現分布を可視化することにより、マージモデルはしばしば表現バイアスのジレンマに悩まされる。
- 参考スコア(独自算出の注目度): 60.52665037255662
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task learning (MTL) compresses the information from multiple tasks into
a unified backbone to improve computational efficiency and generalization.
Recent work directly merges multiple independently trained models to perform
MTL instead of collecting their raw data for joint training, greatly expanding
the application scenarios of MTL. However, by visualizing the representation
distribution of existing model merging schemes, we find that the merged model
often suffers from the dilemma of representation bias. That is, there is a
significant discrepancy in the representation distribution between the merged
and individual models, resulting in poor performance of merged MTL. In this
paper, we propose a representation surgery solution called "Surgery" to reduce
representation bias in the merged model. Specifically, Surgery is a lightweight
task-specific module that takes the representation of the merged model as input
and attempts to output the biases contained in the representation from the
merged model. We then designed an unsupervised optimization objective that
updates the Surgery module by minimizing the distance between the merged
model's representation and the individual model's representation. Extensive
experiments demonstrate significant MTL performance improvements when our
Surgery module is applied to state-of-the-art (SOTA) model merging schemes.
- Abstract(参考訳): マルチタスク学習(MTL)は、複数のタスクから情報を統一されたバックボーンに圧縮し、計算効率と一般化を改善する。
最近の研究は、mtlのアプリケーションシナリオを大きく拡大し、共同トレーニングのために生データを収集する代わりに、mtlを実行するために複数の独立したトレーニングモデルを直接マージする。
しかし、既存のモデルマージスキームの表現分布を可視化することで、マージモデルはしばしば表現バイアスのジレンマに苦しむことが分かる。
つまり、マージされたモデルと個々のモデルの表現分布に大きな差があり、結果としてマージされたMTLの性能は低下する。
本稿では,統合モデルにおける表現バイアスを低減するために,Surgeryと呼ばれる表現手術ソリューションを提案する。
特に、手術は、マージされたモデルの表現を入力とし、マージされたモデルから表現に含まれるバイアスを出力しようとする軽量なタスク固有モジュールである。
そこで我々は,統合モデルの表現と個々のモデルの表現との距離を最小化し,手術モジュールを更新する教師なし最適化目標を設計した。
手術モジュールをSOTA(State-of-the-art Model merging scheme)に適用した場合のMTL性能は有意に向上した。
関連論文リスト
- Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - Exact and efficient solutions of the LMC Multitask Gaussian Process
model [30.38539960317671]
コリージョン化線形モデル(英: Linear Model of Co- Regionalization、LMC)は、回帰や分類のためのマルチタスクガウス過程の非常に一般的なモデルである。
最近の研究によると、ある条件下では、モデルの潜在過程は切り離され、そのプロセスの数でのみ線形となる複雑さが生じる。
ここでは、これらの結果を拡張し、LCCの効率的な正確な計算に必要な条件はノイズモデルに関する軽度の仮説である、という最も一般的な仮定から示している。
論文 参考訳(メタデータ) (2023-10-18T15:16:24Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [72.2068175246167]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - BYOM: Building Your Own Multi-Task Model For Free [69.63765907216442]
BYOM-FFTは完全微調整モデルのマージ用であり、BYOM-LoRAはLoRA微調整モデルのマージ用である。
コンピュータビジョンと自然言語処理タスクの実験により、提案手法は既存のマージ手法よりも大きなマージ率で優れていることが示された。
論文 参考訳(メタデータ) (2023-10-03T08:39:33Z) - Model ensemble instead of prompt fusion: a sample-specific knowledge
transfer method for few-shot prompt tuning [85.55727213502402]
我々は、ソースタスクのソフトプロンプトから知識を伝達することで、プロンプトチューニングにおける数ショットのパフォーマンスを改善することに集中する。
我々はソースモデル(SESoM)のサンプル固有アンサンブルを提案する。
SESoMは、ソースモデルが出力されるときに、ターゲットの各サンプルに対するソースモデルのコントリビューションを個別に調整することを学ぶ。
論文 参考訳(メタデータ) (2022-10-23T01:33:16Z) - Joint Extraction of Entity and Relation with Information Redundancy
Elimination [0.0]
本稿では,冗長な情報の問題と,エンティティと関係抽出モデルの重なり合う関係を解くための共同抽出モデルを提案する。
このモデルは、関係のない情報を生成することなく、複数の関連エンティティを直接抽出することができる。
また、文をモデル化する繰り返しユニットの能力を高めるために、LSTMという名前のリカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-11-27T05:47:26Z) - Robust Finite Mixture Regression for Heterogeneous Targets [70.19798470463378]
本稿では,サンプルクラスタの探索と,複数の不完全な混合型ターゲットを同時にモデル化するFMRモデルを提案する。
我々は、高次元の学習フレームワークの下で、無症状のオラクルのパフォーマンス境界をモデルに提供します。
その結果,我々のモデルは最先端の性能を達成できることがわかった。
論文 参考訳(メタデータ) (2020-10-12T03:27:07Z) - Brain tumor segmentation with missing modalities via latent multi-source
correlation representation [6.060020806741279]
遅延多ソース相関を特殊に発見するために,新しい相関表現ブロックを提案する。
得られた相関表現のおかげで、モダリティが欠落した場合、セグメンテーションはより堅牢になる。
当社のモデルはBraTS 2018データセット上で評価され、現在の最先端メソッドよりも優れており、1つ以上のモダリティが欠如している場合に堅牢な結果が得られます。
論文 参考訳(メタデータ) (2020-03-19T15:47:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。