論文の概要: MoORE: SVD-based Model MoE-ization for Conflict- and Oblivion-Resistant Multi-Task Adaptation
- arxiv url: http://arxiv.org/abs/2506.14436v2
- Date: Sat, 21 Jun 2025 15:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 12:48:19.125061
- Title: MoORE: SVD-based Model MoE-ization for Conflict- and Oblivion-Resistant Multi-Task Adaptation
- Title(参考訳): MoORE: SVD-based Model MoE-ization for Conflict- and Oblivion-Resistant Multi-Task Adaptation
- Authors: Shen Yuan, Yin Zheng, Taifeng Wang, Binbin Liu, Hongteng Xu,
- Abstract要約: マルチタスクシナリオにおける大規模な基盤モデルの適用は、多くの場合、タスクの衝突や障害に悩まされる。
本稿では,「モデルMOE-ization」戦略を新たに提案し,コンフリクトとオブリビションに抵抗するマルチタスク適応手法を提案する。
様々なデータセットの実験により、MoOREは既存のマルチタスク適応手法を一貫して上回ることを示した。
- 参考スコア(独自算出の注目度): 29.241996874687175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting large-scale foundation models in multi-task scenarios often suffers from task conflict and oblivion. To mitigate such issues, we propose a novel ''model MoE-ization'' strategy that leads to a conflict- and oblivion-resistant multi-task adaptation method. Given a weight matrix of a pre-trained model, our method applies SVD to it and introduces a learnable router to adjust its singular values based on tasks and samples. Accordingly, the weight matrix becomes a Mixture of Orthogonal Rank-one Experts (MoORE), in which each expert corresponds to the outer product of a left singular vector and the corresponding right one. We can improve the model capacity by imposing a learnable orthogonal transform on the right singular vectors. Unlike low-rank adaptation (LoRA) and its MoE-driven variants, MoORE guarantees the experts' orthogonality and maintains the column space of the original weight matrix. These two properties make the adapted model resistant to the conflicts among the new tasks and the oblivion of its original tasks, respectively. Experiments on various datasets demonstrate that MoORE outperforms existing multi-task adaptation methods consistently, showing its superiority in terms of conflict- and oblivion-resistance. The code of the experiments is available at https://github.com/DaShenZi721/MoORE.
- Abstract(参考訳): マルチタスクシナリオにおける大規模な基盤モデルの適用は、多くの場合、タスクの衝突や障害に悩まされる。
このような問題を緩和するため、我々は、対立に抵抗し難いマルチタスク適応法につながる新しい「モデルMOE-ization」戦略を提案する。
事前学習されたモデルの重み行列が与えられた場合、SVDを適用し、タスクやサンプルに基づいて特異値を調整するための学習可能なルータを導入する。
したがって、重み行列は直交ランクワンエキスパート(MoORE)の混合となり、各専門家は左特異ベクトルの外積と対応する右積に対応する。
右特異ベクトルに学習可能な直交変換を付与することにより、モデル容量を改善することができる。
低ランク適応(LoRA)とそのMoE駆動の変種とは異なり、MoOREは専門家の直交を保証し、元の重み行列の列空間を維持する。
これらの2つの性質は、適応されたモデルが、それぞれ新しいタスク間の衝突と元のタスクの消耗に耐性を持つようにしている。
様々なデータセットの実験により、MoOREは既存のマルチタスク適応手法を一貫して上回り、競合とオブリビション抵抗の点でその優位性を示している。
実験のコードはhttps://github.com/DaShenZi721/MoOREで公開されている。
関連論文リスト
- Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Multi-Task Model Merging via Adaptive Weight Disentanglement [69.7292615212444]
モデルマージのための適応重み分散法を提案する。
余剰ベクトルの抽出に成功し, 減算後, タスクベクトルは頑健な性能を維持した。
論文 参考訳(メタデータ) (2024-11-27T20:08:55Z) - Training-Free Pretrained Model Merging [38.16269074353077]
双対空間制約(MuDSC)の下でのマージという,革新的なモデルマージフレームワークを提案する。
ユーザビリティを高めるため,マルチヘッドアテンションやグループ正規化など,グループ構造への適応も取り入れた。
論文 参考訳(メタデータ) (2024-03-04T06:19:27Z) - Merging Multi-Task Models via Weight-Ensembling Mixture of Experts [64.94129594112557]
異なるタスクでトレーニングされたTransformerベースのモデルを単一の統一モデルにマージすることで、すべてのタスクを同時に実行できる。
従来の手法は、タスク演算によって例示され、効率的かつスケーラブルであることが証明されている。
本稿では,Transformer層をMoEモジュールにアップスケーリングしながら,ほとんどのパラメータをマージすることを提案する。
論文 参考訳(メタデータ) (2024-02-01T08:58:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。