Fugu-MT 論文翻訳(概要): Merging Smarter, Generalizing Better: Enhancing Model Merging on OOD Data

論文の概要: Merging Smarter, Generalizing Better: Enhancing Model Merging on OOD Data

arxiv url: http://arxiv.org/abs/2506.09093v1
Date: Tue, 10 Jun 2025 11:34:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 06:35:01.693449
Title: Merging Smarter, Generalizing Better: Enhancing Model Merging on OOD Data
Title（参考訳）: よりスマートなマージとより汎用的なモデルマージ - OODデータによるモデルマージの強化
Authors: Bingjie Zhang, Hongkang Li, Changlong Shi, Guowei Rong, He Zhao, Dongsheng Wang, Dandan Guo, Meng Wang,
Abstract要約: マルチタスク学習(MTL)は、さまざまなタスクデータセットのモデルを同時にトレーニングして、共通の機能を利用する。近年の研究では、複数の独立モデルパラメータをMTLの統一モデルにマージする努力が続けられている。 LwPTV (Layer-wise Pruning Task Vector) を提案する。
参考スコア（独自算出の注目度）: 16.462869377794316
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-task learning (MTL) concurrently trains a model on diverse task datasets to exploit common features, thereby improving overall performance across the tasks. Recent studies have dedicated efforts to merging multiple independent model parameters into a unified model for MTL, thus circumventing the need for training data and expanding the scope of applicable scenarios of MTL. However, current approaches to model merging predominantly concentrate on enhancing performance within in-domain (ID) datasets, often overlooking their efficacy on out-of-domain (OOD) datasets. In this work, we proposed LwPTV (Layer-wise Pruning Task Vector) by building a saliency score, measuring the redundancy of parameters in task vectors. Designed in this way ours can achieve mask vector for each task and thus perform layer-wise pruning on the task vectors, only keeping the pre-trained model parameters at the corresponding layer in merged model. Owing to its flexibility, our method can be seamlessly integrated with most of existing model merging methods to improve their performance on OOD tasks. Extensive experiments demonstrate that the application of our method results in substantial enhancements in OOD performance while preserving the ability on ID tasks.
Abstract（参考訳）: マルチタスク学習(MTL)は、さまざまなタスクデータセットのモデルを同時にトレーニングして、共通の機能を活用することで、タスク全体のパフォーマンスを改善する。最近の研究は、複数の独立モデルパラメータをMTLの統一モデルにマージし、トレーニングデータの必要性を回避し、MTLの応用シナリオの範囲を広げることに力を入れている。しかしながら、モデルマージに対する現在のアプローチは、主にドメイン内(ID)データセットのパフォーマンス向上に集中しており、多くの場合、ドメイン外(OOD)データセットでの有効性を見落としている。本研究では,LwPTV (Layer-wise Pruning Task Vector) を提案した。このような方法で設計され、各タスクに対してマスクベクトルを実現し、従ってタスクベクトルに対して階層的にプルーニングを行い、事前訓練されたモデルパラメータを対応するレイヤにマージしたモデルに保持する。その柔軟性のため、我々の手法は既存のモデルマージ手法のほとんどとシームレスに統合でき、OODタスクの性能を向上させることができる。大規模な実験により,本手法の適用により,IDタスクの処理能力を維持しつつ,OOD性能を大幅に向上することが示された。

関連論文リスト

Leveraging Submodule Linearity Enhances Task Arithmetic Performance in LLMs [51.09983600916971]
近年の研究では、線形性を示すモデルがタスク演算の性能を向上させることが示されている。我々は、この線型性はモデルの部分加群の中にすでに存在すると論じる。我々はこれらのサブモジュールを独立にマージする革新的なモデルマージ戦略を提案する。
論文参考訳（メタデータ） (2025-04-15T06:23:24Z)
LEWIS (LayEr WIse Sparsity) -- A Training Free Guided Model Merging Approach [0.0]
LEWIS(Layer Wise Sparsity)は、ガイド付きモデルマージフレームワークである。階層的なタスク固有の知識を保持することによって、既存のマージ手法をガイドする。コード命令追従モデルと数解モデルの性能改善によるLEWISの有効性を実証した。
論文参考訳（メタデータ） (2025-03-05T20:09:59Z)
Merging Models on the Fly Without Retraining: A Sequential Approach to Scalable Continual Model Merging [75.93960998357812]
ディープモデルマージ(Deep Modelmerging)は、複数の微調整モデルを組み合わせて、さまざまなタスクやドメインにまたがる能力を活用する、新たな研究方向を示すものだ。現在のモデルマージ技術は、全ての利用可能なモデルを同時にマージすることに集中しており、重量行列に基づく手法が主要なアプローチである。本稿では,モデルを逐次処理するトレーニングフリーなプロジェクションベース連続マージ手法を提案する。
論文参考訳（メタデータ） (2025-01-16T13:17:24Z)
Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文参考訳（メタデータ） (2025-01-02T12:45:21Z)
Layer-wise Model Merging for Unsupervised Domain Adaptation in Segmentation Tasks [3.776249047528669]
フリーでトレーニングされたモデルの豊富さを活用して、モデルマージにコストフリーのアプローチを導入します。初期レイヤを統一しながら、タスク固有の最終レイヤの特異性を維持することを目的としている。このアプローチは、パフォーマンスを高めるために不可欠な、すべてのレイヤにおけるパラメータの一貫性を保証する。
論文参考訳（メタデータ） (2024-09-24T07:19:30Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Task-Distributionally Robust Data-Free Meta-Learning [99.56612787882334]
Data-Free Meta-Learning (DFML)は、複数の事前学習モデルを活用することで、独自のトレーニングデータを必要とせずに、新しいタスクを効率的に学習することを目的としている。 TDS(Task-Distribution Shift)とTDC(Task-Distribution Corruption)の2つの大きな課題を初めて明らかにした。
論文参考訳（メタデータ） (2023-11-23T15:46:54Z)
AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。 AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文参考訳（メタデータ） (2023-10-04T04:26:33Z)
Task-Feature Collaborative Learning with Application to Personalized Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文参考訳（メタデータ） (2020-04-29T02:32:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。