論文の概要: Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation
- arxiv url: http://arxiv.org/abs/2312.16610v1
- Date: Wed, 27 Dec 2023 15:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-29 18:39:39.161509
- Title: Efficient Deweather Mixture-of-Experts with Uncertainty-aware
Feature-wise Linear Modulation
- Title(参考訳): 不確実性を考慮した特徴量線形変調を用いた効率的なDeweather Mixture-of-Expert
- Authors: Rongyu Zhang, Yulin Luo, Jiaming Liu, Huanrui Yang, Zhen Dong, Denis
Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Yuan Du, Shanghang
Zhang
- Abstract要約: 本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。
MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。
実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
- 参考スコア(独自算出の注目度): 44.43376913419967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Mixture-of-Experts (MoE) approach has demonstrated outstanding
scalability in multi-task learning including low-level upstream tasks such as
concurrent removal of multiple adverse weather effects. However, the
conventional MoE architecture with parallel Feed Forward Network (FFN) experts
leads to significant parameter and computational overheads that hinder its
efficient deployment. In addition, the naive MoE linear router is suboptimal in
assigning task-specific features to multiple experts which limits its further
scalability. In this work, we propose an efficient MoE architecture with weight
sharing across the experts. Inspired by the idea of linear feature modulation
(FM), our architecture implicitly instantiates multiple experts via learnable
activation modulations on a single shared expert block. The proposed Feature
Modulated Expert (FME) serves as a building block for the novel
Mixture-of-Feature-Modulation-Experts (MoFME) architecture, which can scale up
the number of experts with low overhead. We further propose an
Uncertainty-aware Router (UaR) to assign task-specific features to different FM
modules with well-calibrated weights. This enables MoFME to effectively learn
diverse expert functions for multiple tasks. The conducted experiments on the
multi-deweather task show that our MoFME outperforms the baselines in the image
restoration quality by 0.1-0.2 dB and achieves SOTA-compatible performance
while saving more than 72% of parameters and 39% inference time over the
conventional MoE counterpart. Experiments on the downstream segmentation and
classification tasks further demonstrate the generalizability of MoFME to real
open-world applications.
- Abstract(参考訳): Mixture-of-Experts (MoE) アプローチは、マルチタスク学習において、複数の悪天候効果の同時除去などの低レベル上流タスクを含む優れたスケーラビリティを示す。
しかしながら、並列フィードフォワードネットワーク(ffn)の専門家による従来のmoeアーキテクチャは、効率的なデプロイメントを妨げる重要なパラメータと計算オーバーヘッドをもたらす。
さらに、naive moeリニアルータは、タスク特有の機能を複数の専門家に割り当てるときに最適であり、拡張性が制限される。
本研究では,専門家間での重み共有による効率的なMoEアーキテクチャを提案する。
リニア特徴変調(fm)のアイデアに触発されて,単一共有専門家ブロック上で学習可能なアクティベーション変調を通じて,複数の専門家を暗黙的にインスタンス化する。
提案されているFeature Modulated Expert (FME)は、新しいMixture-of-Feature-Modulation-Experts (MoFME)アーキテクチャのビルディングブロックとして機能し、オーバーヘッドの少ない専門家の数をスケールアップすることができる。
さらに,さまざまなfmモジュールにタスク固有の機能を割り当てるための不確実性対応ルータ(uar)を提案する。
これにより、MoFMEは複数のタスクに対して多様な専門家関数を効果的に学習することができる。
その結果,MFMEは画像復元品質を0.1-0.2dB向上させ,従来のMoEよりも72%以上のパラメータと39%の推論時間を節約しつつ,SOTA互換性能を実現した。
下流セグメンテーションと分類タスクの実験は、MoFMEの実際のオープンワールドアプリケーションへの一般化可能性をさらに示している。
関連論文リスト
- Harder Tasks Need More Experts: Dynamic Routing in MoE Models [58.18526590138739]
本稿では,Mixture of Experts(MoE)モデルのための新しい動的専門家選択フレームワークを提案する。
提案手法は,各入力に対する専門家選択の信頼性レベルに基づいて,専門家を動的に選択する。
論文 参考訳(メタデータ) (2024-03-12T13:41:15Z) - Higher Layers Need More LoRA Experts [23.72297945365351]
トランスフォーマーモデルのための新しいパラメータ効率MoE法であるtextittextbfMoE-LtextbfoRA と textbfLayer-wise Expert textbfAllocation (MoLA) を導入する。
6つのよく知られたNLPおよびCommonsense QAベンチマークの実験は、MoLAがすべてのベースラインと同等または優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2024-02-13T16:04:21Z) - Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of
Low-rank Experts [79.82187318830955]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。
ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。
我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文 参考訳(メタデータ) (2023-12-01T23:04:27Z) - Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient
MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。
本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。
本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文 参考訳(メタデータ) (2023-09-11T13:31:00Z) - MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。
MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。
しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文 参考訳(メタデータ) (2022-07-19T06:09:55Z) - Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。
MoEはクラウドやモバイル環境にデプロイするのは難しい。
本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文 参考訳(メタデータ) (2022-06-01T07:09:01Z) - Parameter-Efficient Mixture-of-Experts Architecture for Pre-trained
Language Models [68.9288651177564]
量子多体物理学から行列積演算子(MPO)に基づく新しいMoEアーキテクチャを提案する。
分解されたMPO構造により、元のMoEアーキテクチャのパラメータを減らすことができる。
GPT2に基づく3つの有名な下流自然言語データセットの実験は、モデルキャパシティの向上における性能と効率の向上を示している。
論文 参考訳(メタデータ) (2022-03-02T13:44:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。