論文の概要: MoORE: SVD-based Model MoE-ization for Conflict- and Oblivion-Resistant Multi-Task Adaptation
- arxiv url: http://arxiv.org/abs/2506.14436v3
- Date: Mon, 30 Jun 2025 06:22:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 19:22:02.197234
- Title: MoORE: SVD-based Model MoE-ization for Conflict- and Oblivion-Resistant Multi-Task Adaptation
- Title(参考訳): MoORE: SVD-based Model MoE-ization for Conflict- and Oblivion-Resistant Multi-Task Adaptation
- Authors: Shen Yuan, Yin Zheng, Taifeng Wang, Binbin Liu, Hongteng Xu,
- Abstract要約: マルチタスクシナリオにおける大規模な基盤モデルの適用は、多くの場合、タスクの衝突や障害に悩まされる。
本稿では,「モデルMOE-ization」戦略を新たに提案し,コンフリクトとオブリビションに抵抗するマルチタスク適応手法を提案する。
様々なデータセットの実験により、MoOREは既存のマルチタスク適応手法を一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 29.241996874687175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large-scale foundation models in multi-task scenarios often suffers from task conflict and oblivion. To mitigate such issues, we propose a novel ''model MoE-ization'' strategy that leads to a conflict- and oblivion-resistant multi-task adaptation method. Given a weight matrix of a pre-trained model, our method applies SVD to it and introduces a learnable router to adjust its singular values based on tasks and samples. Accordingly, the weight matrix becomes a Mixture of Orthogonal Rank-one Experts (MoORE), in which each expert corresponds to the outer product of a left singular vector and the corresponding right one. We can improve the model capacity by imposing a learnable orthogonal transform on the right singular vectors. Unlike low-rank adaptation (LoRA) and its MoE-driven variants, MoORE guarantees the experts' orthogonality and maintains the column space of the original weight matrix. These two properties make the adapted model resistant to the conflicts among the new tasks and the oblivion of its original tasks, respectively. Experiments on various datasets demonstrate that MoORE outperforms existing multi-task adaptation methods consistently, showing its superiority in terms of conflict- and oblivion-resistance. The code of the experiments is available at https://github.com/DaShenZi721/MoORE.
- Abstract(参考訳): マルチタスクシナリオにおける大規模な基盤モデルの適用は、多くの場合、タスクの衝突や障害に悩まされる。
このような問題を緩和するため、我々は、対立に抵抗し難いマルチタスク適応法につながる新しい「モデルMOE-ization」戦略を提案する。
事前学習されたモデルの重み行列が与えられた場合、SVDを適用し、タスクやサンプルに基づいて特異値を調整するための学習可能なルータを導入する。
したがって、重み行列は直交ランクワンエキスパート(MoORE)の混合となり、各専門家は左特異ベクトルの外積と対応する右積に対応する。
右特異ベクトルに学習可能な直交変換を付与することにより、モデル容量を改善することができる。
低ランク適応(LoRA)とそのMoE駆動の変種とは異なり、MoOREは専門家の直交を保証し、元の重み行列の列空間を維持する。
これらの2つの性質は、適応されたモデルが、それぞれ新しいタスク間の衝突と元のタスクの消耗に耐性を持つようにしている。
様々なデータセットの実験により、MoOREは既存のマルチタスク適応手法を一貫して上回り、競合とオブリビション抵抗の点でその優位性を示している。
実験のコードはhttps://github.com/DaShenZi721/MoOREで公開されている。
関連論文リスト
- Task Arithmetic in Trust Region: A Training-Free Model Merging Approach to Navigate Knowledge Conflicts [13.356826891549856]
マルチタスクモデルマージは、複数の微調整されたモデルから知識を統合するための効率的なソリューションを提供する。
Task Arithmetic (TA) の有望なパフォーマンスにもかかわらず、タスクベクトル間で衝突が発生する可能性がある。
本稿では,信頼領域をモデルパラメータ空間の次元として定義するタスク算術的信頼領域(TATR)を提案する。
論文 参考訳(メタデータ) (2025-01-25T04:09:56Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。
EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文 参考訳(メタデータ) (2024-05-23T05:25:45Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。