論文の概要: Merging Smarter, Generalizing Better: Enhancing Model Merging on OOD Data
- arxiv url: http://arxiv.org/abs/2506.09093v1
- Date: Tue, 10 Jun 2025 11:34:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:01.693449
- Title: Merging Smarter, Generalizing Better: Enhancing Model Merging on OOD Data
- Title(参考訳): よりスマートなマージとより汎用的なモデルマージ - OODデータによるモデルマージの強化
- Authors: Bingjie Zhang, Hongkang Li, Changlong Shi, Guowei Rong, He Zhao, Dongsheng Wang, Dandan Guo, Meng Wang,
- Abstract要約: マルチタスク学習(MTL)は、さまざまなタスクデータセットのモデルを同時にトレーニングして、共通の機能を利用する。
近年の研究では、複数の独立モデルパラメータをMTLの統一モデルにマージする努力が続けられている。
LwPTV (Layer-wise Pruning Task Vector) を提案する。
- 参考スコア(独自算出の注目度): 16.462869377794316
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-task learning (MTL) concurrently trains a model on diverse task datasets to exploit common features, thereby improving overall performance across the tasks. Recent studies have dedicated efforts to merging multiple independent model parameters into a unified model for MTL, thus circumventing the need for training data and expanding the scope of applicable scenarios of MTL. However, current approaches to model merging predominantly concentrate on enhancing performance within in-domain (ID) datasets, often overlooking their efficacy on out-of-domain (OOD) datasets. In this work, we proposed LwPTV (Layer-wise Pruning Task Vector) by building a saliency score, measuring the redundancy of parameters in task vectors. Designed in this way ours can achieve mask vector for each task and thus perform layer-wise pruning on the task vectors, only keeping the pre-trained model parameters at the corresponding layer in merged model. Owing to its flexibility, our method can be seamlessly integrated with most of existing model merging methods to improve their performance on OOD tasks. Extensive experiments demonstrate that the application of our method results in substantial enhancements in OOD performance while preserving the ability on ID tasks.
- Abstract(参考訳): マルチタスク学習(MTL)は、さまざまなタスクデータセットのモデルを同時にトレーニングして、共通の機能を活用することで、タスク全体のパフォーマンスを改善する。
最近の研究は、複数の独立モデルパラメータをMTLの統一モデルにマージし、トレーニングデータの必要性を回避し、MTLの応用シナリオの範囲を広げることに力を入れている。
しかしながら、モデルマージに対する現在のアプローチは、主にドメイン内(ID)データセットのパフォーマンス向上に集中しており、多くの場合、ドメイン外(OOD)データセットでの有効性を見落としている。
本研究では,LwPTV (Layer-wise Pruning Task Vector) を提案した。
このような方法で設計され、各タスクに対してマスクベクトルを実現し、従ってタスクベクトルに対して階層的にプルーニングを行い、事前訓練されたモデルパラメータを対応するレイヤにマージしたモデルに保持する。
その柔軟性のため、我々の手法は既存のモデルマージ手法のほとんどとシームレスに統合でき、OODタスクの性能を向上させることができる。
大規模な実験により,本手法の適用により,IDタスクの処理能力を維持しつつ,OOD性能を大幅に向上することが示された。
関連論文リスト
- LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。
階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。
コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文 参考訳(メタデータ) (2025-03-05T20:09:59Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。
提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文 参考訳(メタデータ) (2024-06-17T10:12:45Z) - Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。
TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文 参考訳(メタデータ) (2023-11-23T15:46:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。