論文の概要: Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation
- arxiv url: http://arxiv.org/abs/2312.16610v1
- Date: Wed, 27 Dec 2023 15:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:39:39.161509
- Title: Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation
- Title(参考訳): 不確実性を考慮した特徴量線形変調を用いた効率的なDeweather Mixture-of-Expert
- Authors: Rongyu Zhang, Yulin Luo, Jiaming Liu, Huanrui Yang, Zhen Dong, Denis
Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Yuan Du, Shanghang
Zhang
- Abstract要約: 本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
- 参考スコア(独自算出の注目度): 44.43376913419967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) approach has demonstrated outstanding
scalability in multi-task learning including low-level upstream tasks such as
concurrent removal of multiple adverse weather effects. However, the
conventional MoE architecture with parallel Feed Forward Network (FFN) experts
leads to significant parameter and computational overheads that hinder its
efficient deployment. In addition, the naive MoE linear router is suboptimal in
assigning task-specific features to multiple experts which limits its further
scalability. In this work, we propose an efficient MoE architecture with weight
sharing across the experts. Inspired by the idea of linear feature modulation
(FM), our architecture implicitly instantiates multiple experts via learnable
activation modulations on a single shared expert block. The proposed Feature
Modulated Expert (FME) serves as a building block for the novel
Mixture-of-Feature-Modulation-Experts (MoFME) architecture, which can scale up
the number of experts with low overhead. We further propose an
Uncertainty-aware Router (UaR) to assign task-specific features to different FM
modules with well-calibrated weights. This enables MoFME to effectively learn
diverse expert functions for multiple tasks. The conducted experiments on the
multi-deweather task show that our MoFME outperforms the baselines in the image
restoration quality by 0.1-0.2 dB and achieves SOTA-compatible performance
while saving more than 72% of parameters and 39% inference time over the
conventional MoE counterpart. Experiments on the downstream segmentation and
classification tasks further demonstrate the generalizability of MoFME to real
open-world applications.
- Abstract(参考訳): Mixture-of-Experts (MoE) アプローチは、マルチタスク学習において、複数の悪天候効果の同時除去などの低レベル上流タスクを含む優れたスケーラビリティを示す。
しかしながら、並列フィードフォワードネットワーク(ffn)の専門家による従来のmoeアーキテクチャは、効率的なデプロイメントを妨げる重要なパラメータと計算オーバーヘッドをもたらす。
さらに、naive moeリニアルータは、タスク特有の機能を複数の専門家に割り当てるときに最適であり、拡張性が制限される。
本研究では,専門家間での重み共有による効率的なMoEアーキテクチャを提案する。
リニア特徴変調(fm)のアイデアに触発されて,単一共有専門家ブロック上で学習可能なアクティベーション変調を通じて,複数の専門家を暗黙的にインスタンス化する。
提案されているFeature Modulated Expert (FME)は、新しいMixture-of-Feature-Modulation-Experts (MoFME)アーキテクチャのビルディングブロックとして機能し、オーバーヘッドの少ない専門家の数をスケールアップすることができる。
さらに,さまざまなfmモジュールにタスク固有の機能を割り当てるための不確実性対応ルータ(uar)を提案する。
これにより、MoFMEは複数のタスクに対して多様な専門家関数を効果的に学習することができる。
その結果,MFMEは画像復元品質を0.1-0.2dB向上させ,従来のMoEよりも72%以上のパラメータと39%の推論時間を節約しつつ,SOTA互換性能を実現した。
下流セグメンテーションと分類タスクの実験は、MoFMEの実際のオープンワールドアプリケーションへの一般化可能性をさらに示している。
関連論文リスト
- PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model [30.620582168350698]
Mixture-of-Experts (MoE) は、リソース利用を改善することでトランスフォーマーをスケールするための強力なアプローチとして登場した。
PEFT(Efficient Fine-Tuning)に関する最近の研究から着想を得て,PEFTモジュールを直接MoE機構に統合するための統一フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-12T22:03:37Z) - Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。
マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。
WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T07:16:31Z) - Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。
MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文 参考訳(メタデータ) (2024-10-14T06:02:56Z) - Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。
よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文 参考訳(メタデータ) (2024-07-02T03:11:13Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。