Fugu-MT 論文翻訳(概要): Scalable Multi-Domain Adaptation of Language Models using Modular Experts

論文の概要: Scalable Multi-Domain Adaptation of Language Models using Modular Experts

arxiv url: http://arxiv.org/abs/2410.10181v2
Date: Thu, 24 Oct 2024 05:04:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 02:34:41.216715
Title: Scalable Multi-Domain Adaptation of Language Models using Modular Experts
Title（参考訳）: モジュールエキスパートを用いた言語モデルのスケーラブルなマルチドメイン適応
Authors: Peter Schafhalter, Shun Liao, Yanqi Zhou, Chih-Kuan Yeh, Arun Kandoor, James Laudon,
Abstract要約: MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。 MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
参考スコア（独自算出の注目度）: 10.393155077703653
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Domain-specific adaptation is critical to maximizing the performance of pre-trained language models (PLMs) on one or multiple targeted tasks, especially under resource-constrained use cases, such as edge devices. However, existing methods often struggle to balance domain-specific performance, retention of general knowledge, and efficiency for training and inference. To address these challenges, we propose Modular Domain Experts (MoDE). MoDE is a mixture-of-experts architecture that augments a general PLMs with modular, domain-specialized experts. These experts are trained independently and composed together via a lightweight training process. In contrast to standard low-rank adaptation methods, each MoDE expert consists of several transformer layers which scale better with more training examples and larger parameter counts. Our evaluation demonstrates that MoDE achieves comparable target performances to full parameter fine-tuning while achieving 1.65% better retention performance. Moreover, MoDE's architecture enables flexible sharding configurations and improves training speeds by up to 38% over state-of-the-art distributed training configurations.
Abstract（参考訳）: ドメイン固有の適応は、特にエッジデバイスのようなリソース制約のあるユースケースにおいて、1つまたは複数のターゲットタスクにおいて、事前訓練された言語モデル(PLM)の性能を最大化する上で重要である。しかし、既存の手法は、ドメイン固有のパフォーマンス、一般的な知識の保持、トレーニングと推論の効率のバランスをとるのに苦労することが多い。これらの課題に対処するため、モジュールドメインエキスパート(MoDE)を提案する。 MoDEは、モジュール化されたドメインの専門家によって一般的なPLMを増強する、エキスパートの混成アーキテクチャである。これらの専門家は独立して訓練され、軽量なトレーニングプロセスを通じて構成される。標準の低ランク適応法とは対照的に、各MoDE専門家は、より多くのトレーニング例とより大きなパラメータ数でより良くスケールするいくつかのトランスフォーマー層で構成されている。評価の結果,MoDEはパラメータの微調整に匹敵する目標性能を達成し,保持性能は1.65%向上した。さらに、MoDEのアーキテクチャはフレキシブルなシャーディング構成を可能にし、最先端の分散トレーニング構成に対して最大38%のトレーニング速度を改善する。

関連論文リスト

pMoE: Prompting Diverse Experts Together Wins More in Visual Adaptation [68.3777121585281]
pMoEと呼ばれる新しいMixture-of-Expertsプロンプトチューニング手法を提案する。提案したpMoEは、幅広いタスクに対するモデルの汎用性と適用性を著しく向上させる。本研究は,一般領域と医療領域の分類・分節を含む47の適応タスクにまたがる広範囲な実験を行った。
論文参考訳（メタデータ） (2026-02-26T12:27:06Z)
Training Matryoshka Mixture-of-Experts for Elastic Inference-Time Expert Utilization [60.309915093470416]
Matryoshka MoE(M-MoE)は、エキスパートアンサンブルに直接粗い構造を注入するトレーニングフレームワークである。私たちの作業は、大規模MOEモデルのより実用的で適応可能なデプロイメントの道を開くものです。
論文参考訳（メタデータ） (2025-09-30T16:56:44Z)
MoE-MLoRA for Multi-Domain CTR Prediction: Efficient Adaptation with Expert Specialization [0.0]
MoE-MLoRAはエキスパートの混成フレームワークで、各専門家はドメインを専門にするために独立して訓練される。 MoE-MLoRAはMovielensとTaobaoの8つのCTRモデルで評価した。
論文参考訳（メタデータ） (2025-06-09T09:03:05Z)
MoA: Heterogeneous Mixture of Adapters for Parameter-Efficient Fine-Tuning of Large Language Models [61.89384981175277]
ローランド適応 (LoRA) とミックスオブエキスパート (MoE) を統合するための固有テキストbfMixture-of-Adapters (MoA) アプローチを提案する。実験結果から, 不均一なMoAは均一なMoE-LoRA法よりも性能およびパラメータ効率が優れていることがわかった。
論文参考訳（メタデータ） (2025-06-06T09:54:19Z)
EvoMoE: Expert Evolution in Mixture of Experts for Multimodal Large Language Models [25.12002287083368]
MLLM(Multi-modal large language model)は、MoE技術を採用した。 MoEの専門家は、単にLPMからFFNパラメータを複製することで、しばしば発生する。専門家の統一性は、MOEの専門家が単に LLM から FFN パラメータを複製することによって生じることが多いためである。ルータの剛性は専門家の選択に静的リニアルータが広く使われていることに由来する
論文参考訳（メタデータ） (2025-05-28T08:38:39Z)
Mixture of Group Experts for Learning Invariant Representations [25.935653652324532]
わずかに活性化されたMixture-of-Experts (MoE)モデルはトークン当たりの一貫した計算コストを維持しながらパラメータ数を効果的に増加させる。スパース表現にインスパイアされた上位$kのルーティングによるバニラMOEの新しい視点を示す。グループエキスパートの混合(Mixture of Group Experts, MOGE)と呼ばれるトップ$kのルーティング入力に対するグループスパース正規化手法を提案する。
論文参考訳（メタデータ） (2025-04-12T15:58:02Z)
Beyond Standard MoE: Mixture of Latent Experts for Resource-Efficient Language Models [10.623996218106564]
本稿では,特定の専門家の共有潜在空間へのマッピングを容易にする新しいパラメータ化手法を提案する。すべてのエキスパート演算は、体系的に2つの主成分に分解される: 共有射影を低次元の潜在空間に分割し、その後専門家固有の変換を行う。この分解されたアプローチは、パラメータ数と計算要求を大幅に減少させる。
論文参考訳（メタデータ） (2025-03-29T14:35:34Z)
OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。これらの知見に触発されて、直交混合(OMoE)を提案する。提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文参考訳（メタデータ） (2025-01-17T09:27:08Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
A Provably Effective Method for Pruning Experts in Fine-tuned Sparse Mixture-of-Experts [49.394145046409044]
本論文は,MoEモデルにおけるエキスパートの刈り取りに有効な手法として,初めて提案するものである。理論的には、事前訓練されたモデルからルータl2ノルムを小さく変更することで、専門家のプルーニングを優先順位付けすることで、テスト精度の維持が保証される。我々の理論解析は、単純化されたMoEアーキテクチャ上でのバイナリ分類タスクに重点を置いているが、我々の専門的なプルーニング手法は、大きな視覚的MoEモデルに基づいて検証されている。
論文参考訳（メタデータ） (2024-05-26T17:52:58Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Performance Characterization of Expert Router for Scalable LLM Inference [0.4726677580049183]
大規模言語モデル(LLM)は、科学や産業の領域で広く採用されている。最適なスループットとレイテンシで、これらのモデルを大規模にデプロイし、提供することは、依然として大きな課題です。本稿では、専門的な専門家モデルに向け、スケーラブルなルーティングアーキテクチャであるExpert Routerを紹介する。
論文参考訳（メタデータ） (2024-04-22T16:33:42Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文参考訳（メタデータ） (2024-03-12T13:41:15Z)
Efficient Deweather Mixture-of-Experts with Uncertainty-aware Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。 MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文参考訳（メタデータ） (2023-12-27T15:23:37Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文参考訳（メタデータ） (2023-09-11T13:31:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。