論文の概要: LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning
- arxiv url: http://arxiv.org/abs/2604.02338v1
- Date: Sun, 01 Feb 2026 01:37:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.295685
- Title: LiME: Lightweight Mixture of Experts for Efficient Multimodal Multi-task Learning
- Title(参考訳): LiME:マルチモーダルマルチタスク学習におけるエキスパートの軽量混合
- Authors: Md Kowsher, Haris Mansoor, Nusrat Jahan Prottasha, Ozlem Garibay, Victor Zhu, Zhengping Ji, Chen Chen,
- Abstract要約: MoE-PEFT法はMixture of Expertsとパラメータ効率の良い微調整を組み合わせたマルチタスク適応法である。
本稿では,アダプタレプリケーションではなく,軽量な変調によって専門的な特殊化を実現するLiMEを提案する。
MMT-47は、テキスト、画像、ビデオにまたがる47のタスクを持つマルチモーダルマルチタスクベンチマークである。
- 参考スコア(独自算出の注目度): 9.408969079896528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: MoE-PEFT methods combine Mixture of Experts with parameter-efficient fine-tuning for multi-task adaptation, but require separate adapters per expert causing trainable parameters to scale linearly with expert count and limiting applicability to adapter-based architectures. We propose LiME (Lightweight Mixture of Experts), which achieves expert specialization through lightweight modulation rather than adapter replication. Instead of separate adapters, LiME uses a single shared PEFT module and modulates its output with lightweight expert vectors, reducing expert parameters while generalizing to any PEFT method. Notably, LiME introduces zero-parameter routing by leveraging existing frozen and adapted representations eliminating learned router parameters typically required per layer. Theoretically, we prove that (i) more experts preserve more task-relevant information and (ii) modulation approximates full expert-specific PEFT with bounded error. LiME further incorporates n-gram windowed routing and adaptive expert selection (Auto Top-K) based on routing confidence. Experiments on MMT-47, a multimodal multi-task benchmark with 47 tasks spanning text, image, and video, demonstrate that LiME achieves competitive or superior performance while using up to 4x fewer trainable parameters and up to 29% faster training compared to corresponding MoE-PEFT baselines.
- Abstract(参考訳): MoE-PEFT法は、エキスパートの混合とマルチタスク適応のためのパラメータ効率の細かい調整を組み合わせるが、訓練可能なパラメータを専門家数で線形にスケールさせ、アダプタベースのアーキテクチャの適用性を制限するために、専門家ごとに個別のアダプタを必要とする。
本稿では,LiME(Lightweight Mixture of Experts)を提案する。
アダプタを分離する代わりに、LiMEは単一の共有PEFTモジュールを使用し、その出力を軽量なエキスパートベクトルで変調し、PEFTメソッドを一般化しながら専門家パラメータを削減している。
注目すべきなのは、LiMEはゼロパラメータルーティングを導入し、既存の凍結および適応された表現を活用して、一般に層ごとに必要となる学習ルータパラメータを排除していることだ。
理論的には
(i)より多くの専門家がより多くのタスク関連情報を保存し、
(ii) 変調は, 完全専門家特異的PEFTを有界誤差で近似する。
LiMEはさらに、ルーティングの信頼性に基づいたn-gramウィンドウルーティングとアダプティブエキスパートセレクション(Auto Top-K)も組み込んでいる。
テキスト、画像、ビデオにまたがる47のタスクからなるマルチモーダルマルチタスクベンチマークであるMMT-47の実験では、LiMEは最大4倍のトレーニング可能なパラメータを使用し、対応するMoE-PEFTベースラインと比較して最大29%高速なトレーニングを実現している。
関連論文リスト
- Least-Loaded Expert Parallelism: Load Balancing An Imbalanced Mixture-of-Experts [74.40169987564724]
エキスパート並列性(EP)は、複数のデバイスに専門家を分散させることで、MoEモデルをスケールするように設計されている。
極端な不均衡の下で、EPは少数の専門家に不均等な数のトークンを渡し、計算とメモリバウンドの障害を引き起こす。
本稿では,過剰なトークンと関連する専門家パラメータを過負荷デバイスから未利用デバイスへ動的に再帰する新しいEPアルゴリズムであるLast-Loaded Expert Parallelism (LLEP)を提案する。
論文 参考訳(メタデータ) (2026-01-23T18:19:15Z) - MC#: Mixture Compressor for Mixture-of-Experts Large Models [86.64315380917827]
Mixture-of-Experts (MoE)は、大きな言語モデル(LLM)と視覚言語モデル(VLM)をスパースアクティベーションによって拡張することで効果的にスケールする。
静的量子化と動的エキスパートプルーニングを組み合わせたフレームワークであるMC#(Mixture-Compressor-sharp)を提案する。
論文 参考訳(メタデータ) (2025-10-13T03:12:46Z) - Adaptive Shared Experts with LoRA-Based Mixture of Experts for Multi-Task Learning [49.90176890917986]
マルチタスク学習(MTL)のための強力なフレームワークとして、Mixture-of-Experts(MoE)が登場した。
既存のMoE-MTL法は、しばしばシングルタスクで事前訓練されたバックボーンに依存し、冗長な適応と非効率的な知識共有に悩まされる。
低ランク適応 (LoRA) に基づく MoE の適応型共有専門家 (ASE) を提案する。
論文 参考訳(メタデータ) (2025-10-01T06:49:19Z) - TT-LoRA MoE: Unifying Parameter-Efficient Fine-Tuning and Sparse Mixture-of-Experts [4.5558042369389105]
TT-LoRA MoEはトレーニングを2つの異なる最適化段階に分解する。
まず、軽量かつテンソル化低ランクアダプタ(TT-LoRAエキスパート)を個別に訓練する。
その後、これらの専門家アダプタは凍結状態のままであり、マルチタスク設定でタスク間干渉を排除し、忘れる。
個別に訓練されたスパースMOEルータは、ベースモデル表現を動的に活用し、推論時に入力ごとに正確に1つの特別なアダプタを選択する。
総合的な実験により、我々のアーキテクチャは低ランクアダプタのメモリ効率を保ち、大きなエキスパートプールにシームレスにスケールし、堅牢なタスクレベルの最適化を実現する。
論文 参考訳(メタデータ) (2025-04-29T21:46:43Z) - Rank Also Matters: Hierarchical Configuration for Mixture of Adapter Experts in LLM Fine-Tuning [5.074620301447097]
本稿では,大規模言語モデル(LLM)のための専門家のアロケーションとランク設定のための階層型スキームHILOを提案する。
HILOは、層間のアダプタエキスパートの数とランクを動的に調整し、アダプタの粒度の異なるモデルレイヤの表現複雑性に適合する。
複数のベンチマークタスクの実験では、HILOが既存のメソッドよりも精度が高く、トレーニング可能なパラメータが少ないことが示されている。
論文 参考訳(メタデータ) (2025-02-06T08:58:03Z) - MoPE: Mixture of Prompt Experts for Parameter-Efficient and Scalable Multimodal Fusion [29.46189153751869]
プロンプトエキスパートの混合 (Mixture of Prompt Experts, MOPE) は、標準のプロンプトを分解することで制限を克服するために設計された最初の技術である。
本手法は, トレーニングデータとトレーニング可能なパラメータの総数により, より効果的にスケールできることを示す。
論文 参考訳(メタデータ) (2024-03-14T17:47:10Z) - Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation [44.43376913419967]
本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
論文 参考訳(メタデータ) (2023-12-27T15:23:37Z) - ComPEFT: Compression for Communicating Parameter Efficient Updates via Sparsification and Quantization [92.36876698509164]
PEFTモデルにおける微調整残差(タスクベクトル)を圧縮する新しい手法であるComPEFTを提案する。
200M - 65Bパラメータを持つT5, T0, LLaMA ベースのモデルにおいて, ComPEFT は圧縮比 8x - 50x を達成する。
論文 参考訳(メタデータ) (2023-11-22T05:28:59Z) - LLM-Adapters: An Adapter Family for Parameter-Efficient Fine-Tuning of
Large Language Models [75.25782573728677]
本稿では,言語モデル(LLM)のPEFT(Adapter-based parameter- efficient fine-tuning)のためのフレームワークを提案する。
このフレームワークには、LLaMA、BLOOM、GPT-Jといった最先端のオープンアクセスLLMや、シリーズアダプタ、パラレルアダプタ、Promptベースの学習、Reparametrizationベースのメソッドなどの広く使われているアダプタが含まれている。
本研究では,2つの異なる推論タスク,算術的推論と常識推論の14種類のデータセットに対するアダプタの有効性を評価する。
論文 参考訳(メタデータ) (2023-04-04T16:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。