論文の概要: Task Singular Vectors: Reducing Task Interference in Model Merging
- arxiv url: http://arxiv.org/abs/2412.00081v1
- Date: Tue, 26 Nov 2024 22:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:18:01.089437
- Title: Task Singular Vectors: Reducing Task Interference in Model Merging
- Title(参考訳): タスク特異ベクトル:モデルマージにおけるタスク干渉を減らす
- Authors: Antonio Andrea Gargiulo, Donato Crisostomi, Maria Sofia Bucarelli, Simone Scardapane, Fabrizio Silvestri, Emanuele Rodolà,
- Abstract要約: Task Arithmeticは、追加のトレーニングなしでモデルをマージするためのシンプルで効果的な方法として登場した。
本研究では,タスク層行列とその特異値分解に着目し,タスクベクトルを層レベルで研究する。
TSV-Merge (TSV-M) は,圧縮と干渉低減を組み合わせた新しいモデルマージ手法である。
- 参考スコア(独自算出の注目度): 19.4876941464776
- License:
- Abstract: Task Arithmetic has emerged as a simple yet effective method to merge models without additional training. However, by treating entire networks as flat parameter vectors, it overlooks key structural information and is susceptible to task interference. In this paper, we study task vectors at the layer level, focusing on task layer matrices and their singular value decomposition. In particular, we concentrate on the resulting singular vectors, which we refer to as Task Singular Vectors (TSV). Recognizing that layer task matrices are often low-rank, we propose TSV-Compress (TSV-C), a simple procedure that compresses them to 10% of their original size while retaining 99% of accuracy. We further leverage this low-rank space to define a new measure of task interference based on the interaction of singular vectors from different tasks. Building on these findings, we introduce TSV-Merge (TSV-M), a novel model merging approach that combines compression with interference reduction, significantly outperforming existing methods.
- Abstract(参考訳): Task Arithmeticは、追加のトレーニングなしでモデルをマージするためのシンプルで効果的な方法として登場した。
しかし、ネットワーク全体を平坦なパラメータベクトルとして扱うことで、重要な構造情報を見落とし、タスク干渉の影響を受けやすい。
本稿では,タスク層行列とその特異値分解に着目し,階層レベルでのタスクベクトルについて検討する。
特に、結果の特異ベクトルに集中し、タスク特異ベクトル (TSV) と呼ぶ。
TSV-Compress(TSV-C)は,従来のタスクの10%まで圧縮し,99%の精度を維持した単純な手順である。
さらに、この低ランク空間を利用して、異なるタスクからの特異ベクトルの相互作用に基づいて、タスク干渉の新しい尺度を定義する。
これらの結果に基づいて,圧縮と干渉低減を併用した新しいモデルマージ手法であるTSV-Merge(TSV-M)を導入する。
関連論文リスト
- Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts [13.356826891549856]
マルチタスクモデルマージは、複数の微調整されたモデルから知識を統合するための効率的なソリューションを提供する。
Task Arithmetic (TA) の有望なパフォーマンスにもかかわらず、タスクベクトル間で衝突が発生する可能性がある。
本稿では,信頼領域をモデルパラメータ空間の次元として定義するタスク算術的信頼領域(TATR)を提案する。
論文 参考訳(メタデータ) (2025-01-25T04:09:56Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - ATM: Improving Model Merging by Alternating Tuning and Merging [16.12778778313037]
タスクベクトルをマルチタスク勾配にリンクすることで、タスクベクトルの有効性を動機付ける。
単一エポックなシナリオでは、タスクベクトルは、マルチタスク設定において勾配降下によって得られる勾配と数学的に等価である。
タスクベクトルは等式が維持されたときに最適に動作し、その有効性は最初のエポック勾配によって大きく駆動される。
論文 参考訳(メタデータ) (2024-11-05T12:42:42Z) - Knowledge Composition using Task Vectors with Learned Anisotropic Scaling [51.4661186662329]
本稿では,パラメータブロックと異なる学習係数を線形に組み合わせ,タスクベクトルレベルでの異方性スケーリングを実現するアルゴリズムであるaTLASを紹介する。
このような線形結合は事前学習されたモデルの低内在性を明示的に利用しており、学習可能なパラメータは数係数のみであることを示す。
本稿では,タスク算術,少数ショット認識,テスト時間適応において,教師なしあるいは教師なしの目的を用いた手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-07-03T07:54:08Z) - Localizing Task Information for Improved Model Merging and Compression [61.16012721460561]
我々は,各タスクの重み付けが重なり合わないことが多いため,各タスクがマージされた後も,各タスクの解決に必要な情報が保存されていることを示す。
本稿では,そのような重みを排除し,既存のモデルマージ手法の一般的な性能を改善するアルゴリズムであるConsensus Mergingを提案する。
論文 参考訳(メタデータ) (2024-05-13T14:54:37Z) - Task Indicating Transformer for Task-conditional Dense Predictions [16.92067246179703]
この課題に対処するために,タスク表示変換(TIT)と呼ばれる新しいタスク条件フレームワークを導入する。
本手法では,行列分解によるタスク指示行列を組み込んだMix Task Adapterモジュールをトランスフォーマーブロック内に設計する。
また,タスク表示ベクトルとゲーティング機構を利用するタスクゲートデコーダモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-01T07:06:57Z) - Low-Rank Multitask Learning based on Tensorized SVMs and LSSVMs [65.42104819071444]
マルチタスク学習(MTL)はタスク関連性を活用して性能を向上させる。
タスクインデックスに対応する各モードを持つ高次テンソルを用いて、複数のインデックスが参照するタスクを自然に表現する。
テンソル化サポートベクターマシン(SVM)と最小2乗サポートベクターマシン(LSSVM)を併用した低ランクMTL手法の汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T14:28:26Z) - Mitigating Task Interference in Multi-Task Learning via Explicit Task
Routing with Non-Learnable Primitives [19.90788777476128]
マルチタスク学習(MTL)は、タスク間の共有情報を活用することで、複数のタスクを達成するための単一のモデルを学ぶことを目指している。
既存のMLLモデルはタスク間の負の干渉に悩まされていることが知られている。
本研究では,非学習可能なプリミティブと明示的なタスクルーティングの相乗的組み合わせによるタスク干渉を軽減するためのETR-NLPを提案する。
論文 参考訳(メタデータ) (2023-08-03T22:34:16Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Sample Efficient Linear Meta-Learning by Alternating Minimization [74.40553081646995]
低次元部分空間と回帰器を交互に学習する簡易交互最小化法(MLLAM)について検討する。
定数部分空間次元に対して、MLLAMはタスクあたり$Omega(log d)$サンプルしか必要とせず、ほぼ最適推定誤差が得られることを示す。
MLLAMと同様の強力な統計的保証を保証する新しいタスクサブセット選択スキームを提案する。
論文 参考訳(メタデータ) (2021-05-18T06:46:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。