Fugu-MT 論文翻訳(概要): MoDULA: Mixture of Domain-Specific and Universal LoRA for Multi-Task Learning

論文の概要: MoDULA: Mixture of Domain-Specific and Universal LoRA for Multi-Task Learning

arxiv url: http://arxiv.org/abs/2412.07405v1
Date: Tue, 10 Dec 2024 10:55:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-11 22:09:45.336652
Title: MoDULA: Mixture of Domain-Specific and Universal LoRA for Multi-Task Learning
Title（参考訳）: MoDULA:マルチタスク学習のためのドメイン特化とユニバーサルLORAの混合
Authors: Yufei Ma, Zihan Liang, Huangyu Dai, Ben Chen, Dehong Gao, Zhuoran Ran, Wang Zihan, Linbo Jin, Wen Jiang, Guannan Zhang, Xiaoyan Cai, Libin Yang,
Abstract要約: MoDULAはマルチタスク学習における微調整とパラメータ効率の改善のためのパラダイムである。 MoDULA-ResはMoDULAパラダイム内の新しい手法であり、普遍的な専門家とタスク固有の専門家を結びつけることによって、モデルの一般的な能力を維持する。
参考スコア（独自算出の注目度）: 17.960185808572582
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The growing demand for larger-scale models in the development of \textbf{L}arge \textbf{L}anguage \textbf{M}odels (LLMs) poses challenges for efficient training within limited computational resources. Traditional fine-tuning methods often exhibit instability in multi-task learning and rely heavily on extensive training resources. Here, we propose MoDULA (\textbf{M}ixture \textbf{o}f \textbf{D}omain-Specific and \textbf{U}niversal \textbf{L}oR\textbf{A}), a novel \textbf{P}arameter \textbf{E}fficient \textbf{F}ine-\textbf{T}uning (PEFT) \textbf{M}ixture-\textbf{o}f-\textbf{E}xpert (MoE) paradigm for improved fine-tuning and parameter efficiency in multi-task learning. The paradigm effectively improves the multi-task capability of the model by training universal experts, domain-specific experts, and routers separately. MoDULA-Res is a new method within the MoDULA paradigm, which maintains the model's general capability by connecting universal and task-specific experts through residual connections. The experimental results demonstrate that the overall performance of the MoDULA-Flan and MoDULA-Res methods surpasses that of existing fine-tuning methods on various LLMs. Notably, MoDULA-Res achieves more significant performance improvements in multiple tasks while reducing training costs by over 80\% without losing general capability. Moreover, MoDULA displays flexible pluggability, allowing for the efficient addition of new tasks without retraining existing experts from scratch. This progressive training paradigm circumvents data balancing issues, enhancing training efficiency and model stability. Overall, MoDULA provides a scalable, cost-effective solution for fine-tuning LLMs with enhanced parameter efficiency and generalization capability.
Abstract（参考訳）: 大規模モデルへの需要が増大し、限られた計算資源内での効率的なトレーニングに挑戦する。従来の微調整手法は、マルチタスク学習における不安定性を示すことが多く、広範なトレーニングリソースに大きく依存する。本稿では, MoDULA (\textbf{M}ixture \textbf{o}f \textbf{D}omain-Specific and \textbf{U}niversal \textbf{L}oR\textbf{A}), a novel \textbf{P}arameter \textbf{E}fficient \textbf{F}ine-\textbf{T}uning (PEFT) \textbf{M}ixture-\textbf{o}f-\textbf{E}xpert (MoE) パラダイムを提案する。このパラダイムは、ユニバーサルエキスパート、ドメイン固有のエキスパート、ルータを個別に訓練することで、モデルのマルチタスク能力を効果的に改善する。 MoDULA-ResはMoDULAパラダイム内の新しい手法であり、残余接続を通じて普遍的およびタスク固有の専門家を接続することでモデルの一般的な能力を維持する。 The experimental results showed that the overall performance of MoDULA-Flan and MoDULA-Res method than the existing fine-tuning method on various LLMs。特に、MoDULA-Resは、一般的な能力を失うことなく、トレーニングコストを80%以上削減しながら、複数のタスクでより重要なパフォーマンス改善を実現している。さらに、MoDULAはフレキシブルなプラグイン可能性を示し、既存のエキスパートをスクラッチからトレーニングすることなく、新しいタスクを効率的に追加できる。このプログレッシブトレーニングパラダイムは、データバランシングの問題を回避し、トレーニング効率を高め、モデルの安定性を高める。全体として、MoDULAは、パラメータ効率と一般化能力を向上した微調整LDMに対して、スケーラブルで費用対効果の高いソリューションを提供する。

関連論文リスト

Bagging-Based Model Merging for Robust General Text Embeddings [73.51674133699196]
汎用テキスト埋め込みモデルは、幅広いNLPおよび情報検索アプリケーションを支える。本稿では,データスケジューリングとモデルマージという2つの観点から,テキスト埋め込みのためのマルチタスク学習の体系的研究を行う。本稿では,Baging ベースの rObust mOdel Merging (BOOM) を提案する。
論文参考訳（メタデータ） (2026-02-05T15:45:08Z)
MoIIE: Mixture of Intra- and Inter-Modality Experts for Large Vision Language Models [52.876185634349575]
我々は、モダリティ内およびモダリティ間エキスパート(MoIIE)の混合をLVLM(Large Vision-Language Models)に組み込むことを提案する。それぞれのトークンに対して、専門家のルーティングはそのモダリティによってガイドされ、それぞれのモダリティの専門家と、モダリティ間のエキスパートの共有プールにトークンを指示する。 5.5B と 11.3B の活性化パラメータを持つ MoIIE モデルは,既存のオープンソース MoE-LLM ベースのマルチモーダルモデルの性能に適合するか,さらに上回っている。
論文参考訳（メタデータ） (2025-08-13T13:00:05Z)
PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文参考訳（メタデータ） (2025-07-10T16:47:25Z)
MTL-KD: Multi-Task Learning Via Knowledge Distillation for Generalizable Neural Vehicle Routing Solver [9.61561012521585]
本研究は知識蒸留(MTL-KD)による新しいマルチタスク学習手法を提案する。提案手法は,複数の異なるRLベースの単一タスクモデルから単一重デコーダモデルへのポリシー知識の転送,ラベルなしトレーニング,多種多様なタスクにおけるモデルの一般化能力の向上を効果的に行う。最大1000ノードのVRP変異体6種と10種のVRP変異体に対する実験結果から,提案手法が一様および実世界のベンチマークにおいて常に優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-06-03T14:35:36Z)
RLAE: Reinforcement Learning-Assisted Ensemble for LLMs [21.77261258691006]
大規模言語モデル(LLM)は、様々なモデルの多様な強みを効果的に組み合わせ、様々なタスクのパフォーマンスを高めるための有望なアプローチを提供する。マルコフ決定プロセス(MDP)のレンズを通してアンサンブルを再構成する新しいフレームワークであるLLMのための強化学習支援アンサンブルを提案する。提案手法では,入力コンテキストと中間生成状態の両方を考慮してアンサンブル重みを動的に調整するRLエージェントを提案する。
論文参考訳（メタデータ） (2025-05-31T07:38:41Z)
Mastering Massive Multi-Task Reinforcement Learning via Mixture-of-Expert Decision Transformer [56.898822179122476]
M3DTは、モデルのパラメータのスケーラビリティをさらに開放することで、タスクのスケーラビリティに対処する新しいM3DTフレームワークである。実験結果から,M3DTは,専門家の数を増やすことにより,一定のタスク数に対するモデル拡張としての性能を継続的に向上するだけでなく,タスクのスケーラビリティも向上し,性能が向上した160タスクにまで拡張できることが示唆された。
論文参考訳（メタデータ） (2025-05-30T09:08:52Z)
Large Language Models as Attribution Regularizers for Efficient Model Training [0.0]
大規模言語モデル(LLM)は、様々な領域で顕著なパフォーマンスを示している。我々は,LLM生成したグローバルタスク特徴属性を,より小さなネットワークのトレーニングプロセスに組み込む方法を提案する。我々のアプローチは、数ショットの学習シナリオにおいて優れたパフォーマンスをもたらす。
論文参考訳（メタデータ） (2025-02-27T16:55:18Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。 In-Context Learning (ICL) など。効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。下流タスクへのLLM。我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文参考訳（メタデータ） (2024-09-30T10:48:20Z)
MoExtend: Tuning New Experts for Modality and Task Extension [61.29100693866109]
MoExtendは、Mixture-of-Experts (MoE)モデルのモダリティ適応と拡張を効率化する効果的なフレームワークである。 MoExtendは、新しいエキスパートをトレーニング済みのMoEモデルにシームレスに統合し、トレーニング済みのモデルをチューニングすることなく、新しい知識を提供する。
論文参考訳（メタデータ） (2024-08-07T02:28:37Z)
Resource-Efficient Federated Multimodal Learning via Layer-wise and Progressive Training [15.462969044840868]
LW-FedMMLは,学習プロセスを複数の段階に分解する階層型多モーダル学習手法である。提案手法の有効性を検証するため,様々なFLおよびマルチモーダル学習環境にまたがる広範囲な実験を行った。具体的には、LW-FedMMLはメモリ使用量を最大2.7Times$、計算処理(FLOP)を2.4times$、通信総コストを2.3times$に削減する。
論文参考訳（メタデータ） (2024-07-22T07:06:17Z)
MetaGPT: Merging Large Language Models Using Model Exclusive Task Arithmetic [6.46176287368784]
textbfGPTスケールモデルをマージするための textbfModel textbfExclusive textbfTask textbfArithmetic を提案する。提案するMetaGPTは,データに依存しず,検索処理を回避し,低コストで実装が容易なメタGPTである。
論文参考訳（メタデータ） (2024-06-17T10:12:45Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
MoE-LLaVA: Mixture of Experts for Large Vision-Language Models [49.32669226551026]
本稿では,LVLMのための簡易かつ効果的なトレーニング戦略であるMoE-Tuningを提案する。 MoE-LLaVAはMoEベースのスパースLVLMアーキテクチャであり、ルータを通じてトップkの専門家のみをユニークに活性化する。様々な視覚的理解と物体幻覚のベンチマークにおいて,MoE-LLaVAの顕著な性能を示す実験を行った。
論文参考訳（メタデータ） (2024-01-29T08:13:40Z)
When Parameter-efficient Tuning Meets General-purpose Vision-language Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-12-16T17:13:08Z)
Scalable and Efficient MoE Training for Multitask Multilingual Models [55.987536562357086]
我々は,MoEモデルを数兆のパラメータに効率的にスケールできるシステムを開発した。また,MoEサンプルの効率を向上させるための新たなトレーニング手法を提案し,時間効率を向上させるために専門家の刈り取り戦略を活用する。 50言語で100億のパラメータで訓練されたモデルは、機械翻訳(MT)および多言語自然言語生成タスクにおける最先端のパフォーマンスを達成することができる。
論文参考訳（メタデータ） (2021-09-22T00:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。