Fugu-MT 論文翻訳(概要): Efficient Deweather Mixture-of-Experts with Uncertainty-aware Feature-wise Linear Modulation

論文の概要: Efficient Deweather Mixture-of-Experts with Uncertainty-aware Feature-wise Linear Modulation

arxiv url: http://arxiv.org/abs/2312.16610v1
Date: Wed, 27 Dec 2023 15:23:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-29 18:39:39.161509
Title: Efficient Deweather Mixture-of-Experts with Uncertainty-aware Feature-wise Linear Modulation
Title（参考訳）: 不確実性を考慮した特徴量線形変調を用いた効率的なDeweather Mixture-of-Expert
Authors: Rongyu Zhang, Yulin Luo, Jiaming Liu, Huanrui Yang, Zhen Dong, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Yuan Du, Shanghang Zhang
Abstract要約: 本稿では,専門家間での重み共有が可能なMixture-of-Experts(MoE)アーキテクチャを提案する。 MoFMEは、単一の共有専門家ブロック上で学習可能なアクティベーション変調を通じて、暗黙的に複数の専門家をインスタンス化する。実験の結果,MoFMEは画像修復品質の基準線を0.1-0.2dBで上回ることがわかった。
参考スコア（独自算出の注目度）: 44.43376913419967
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The Mixture-of-Experts (MoE) approach has demonstrated outstanding scalability in multi-task learning including low-level upstream tasks such as concurrent removal of multiple adverse weather effects. However, the conventional MoE architecture with parallel Feed Forward Network (FFN) experts leads to significant parameter and computational overheads that hinder its efficient deployment. In addition, the naive MoE linear router is suboptimal in assigning task-specific features to multiple experts which limits its further scalability. In this work, we propose an efficient MoE architecture with weight sharing across the experts. Inspired by the idea of linear feature modulation (FM), our architecture implicitly instantiates multiple experts via learnable activation modulations on a single shared expert block. The proposed Feature Modulated Expert (FME) serves as a building block for the novel Mixture-of-Feature-Modulation-Experts (MoFME) architecture, which can scale up the number of experts with low overhead. We further propose an Uncertainty-aware Router (UaR) to assign task-specific features to different FM modules with well-calibrated weights. This enables MoFME to effectively learn diverse expert functions for multiple tasks. The conducted experiments on the multi-deweather task show that our MoFME outperforms the baselines in the image restoration quality by 0.1-0.2 dB and achieves SOTA-compatible performance while saving more than 72% of parameters and 39% inference time over the conventional MoE counterpart. Experiments on the downstream segmentation and classification tasks further demonstrate the generalizability of MoFME to real open-world applications.
Abstract（参考訳）: Mixture-of-Experts (MoE) アプローチは、マルチタスク学習において、複数の悪天候効果の同時除去などの低レベル上流タスクを含む優れたスケーラビリティを示す。しかしながら、並列フィードフォワードネットワーク(ffn)の専門家による従来のmoeアーキテクチャは、効率的なデプロイメントを妨げる重要なパラメータと計算オーバーヘッドをもたらす。さらに、naive moeリニアルータは、タスク特有の機能を複数の専門家に割り当てるときに最適であり、拡張性が制限される。本研究では,専門家間での重み共有による効率的なMoEアーキテクチャを提案する。リニア特徴変調(fm)のアイデアに触発されて,単一共有専門家ブロック上で学習可能なアクティベーション変調を通じて,複数の専門家を暗黙的にインスタンス化する。提案されているFeature Modulated Expert (FME)は、新しいMixture-of-Feature-Modulation-Experts (MoFME)アーキテクチャのビルディングブロックとして機能し、オーバーヘッドの少ない専門家の数をスケールアップすることができる。さらに,さまざまなfmモジュールにタスク固有の機能を割り当てるための不確実性対応ルータ(uar)を提案する。これにより、MoFMEは複数のタスクに対して多様な専門家関数を効果的に学習することができる。その結果,MFMEは画像復元品質を0.1-0.2dB向上させ,従来のMoEよりも72%以上のパラメータと39%の推論時間を節約しつつ,SOTA互換性能を実現した。下流セグメンテーションと分類タスクの実験は、MoFMEの実際のオープンワールドアプリケーションへの一般化可能性をさらに示している。

関連論文リスト

Mixture of Routers [4.248666380057258]
我々は、Mixture of Routers (MoR) と呼ばれる効率的な微調整法を提案する。 MoRはジョイントセレクションに複数のサブルータを使用し、学習可能なメインルータを使用してサブルータの重みを決定する。その結果、MoRは、ほとんどのタスクにおいてベースラインモデルよりも優れており、平均的なパフォーマンス改善は1%であることがわかった。
論文参考訳（メタデータ） (2025-03-30T08:39:09Z)
OMoE: Diversifying Mixture of Low-Rank Adaptation by Orthogonal Finetuning [3.8813502422318127]
低ランク適応(LoRA)のためのMixix-of-experts(MoE)アーキテクチャは、パラメータ効率の微調整(PEFT)における潜在的方向として出現している。まず,バニラMoEの類似表現に専門家が崩壊し,モジュール設計の能力と計算効率が制限されることを示す定性解析を行った。これらの知見に触発されて、直交混合(OMoE)を提案する。提案手法は,バニラMOEモデルと比較して最小限の専門家を惹起するため,メモリボトルネックを緩和する。
論文参考訳（メタデータ） (2025-01-17T09:27:08Z)
PERFT: Parameter-Efficient Routed Fine-Tuning for Mixture-of-Expert Model [30.620582168350698]
Mixture-of-Experts (MoE) は、リソース利用を改善することでトランスフォーマーをスケールするための強力なアプローチとして登場した。 PEFT(Efficient Fine-Tuning)に関する最近の研究から着想を得て,PEFTモジュールを直接MoE機構に統合するための統一フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-12T22:03:37Z)
Efficient and Effective Weight-Ensembling Mixture of Experts for Multi-Task Model Merging [111.8456671452411]
マルチタスク学習(MTL)は、共有モデルを利用して複数のタスクを遂行し、知識伝達を促進する。マルチタスクモデル統合のためのウェイトエンセブリング・ミックス・オブ・エキスパート(WEMoE)手法を提案する。 WEMoEとE-WEMoEは, MTL性能, 一般化, 堅牢性の観点から, 最先端(SOTA)モデルマージ法より優れていることを示す。
論文参考訳（メタデータ） (2024-10-29T07:16:31Z)
Scalable Multi-Domain Adaptation of Language Models using Modular Experts [10.393155077703653]
MoDEは、モジュール化されたドメインの専門家による一般的なPLMを強化する、エキスパートの混成アーキテクチャである。 MoDEは完全なパラメータの微調整に匹敵する目標性能を達成し、保持性能は1.65%向上した。
論文参考訳（メタデータ） (2024-10-14T06:02:56Z)
Let the Expert Stick to His Last: Expert-Specialized Fine-Tuning for Sparse Architectural Large Language Models [24.915387910764082]
エキスパート特化ファインチューニング(Expert-Specialized Fine-Tuning、ESFT)は、他の専門家やモジュールを凍結しながら、下流のタスクに最も関係のある専門家をチューニングする。よりきめ細かい専門家によるMoEモデルは、下流タスクに最も関係のある専門家の組み合わせを選択する上でより有利である。
論文参考訳（メタデータ） (2024-07-02T03:11:13Z)
Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。 MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。 Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文参考訳（メタデータ） (2024-04-13T12:14:58Z)
Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts [74.40198929049959]
大規模マルチモーダルモデル (LMM) は多くのタスクにまたがって優れた性能を示す。ジェネラリストのLMMは、タスクの集合をチューニングする際に、しばしばパフォーマンスの劣化に悩まされる。我々は,Omni-SMoLAを提案する。Omni-SMoLAはSoft MoEアプローチを用いて,多くのマルチモーダルな低ランクの専門家を混在させるアーキテクチャである。
論文参考訳（メタデータ） (2023-12-01T23:04:27Z)
Pushing Mixture of Experts to the Limit: Extremely Parameter Efficient MoE for Instruction Tuning [7.094820944028638]
我々は,MoEアーキテクチャと軽量専門家を組み合わせることで,極めてパラメータ効率の良いMoEを提案する。本手法は,従来のタスク知識に依存しないため,目に見えないタスクに一般化する。本研究は,厳密なパラメータ制約の下でも堅牢な性能を実現する能力を示す。
論文参考訳（メタデータ） (2023-09-11T13:31:00Z)
MoEC: Mixture of Expert Clusters [93.63738535295866]
Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。しかし、専門家の数が増加するにつれて、乱雑なパラメータを持つMoEはデータアロケーションの過度な調整とスパースに悩まされる。
論文参考訳（メタデータ） (2022-07-19T06:09:55Z)
Task-Specific Expert Pruning for Sparse Mixture-of-Experts [105.20605021416276]
Mixture-of-Experts (MoE) モデルは大規模な事前トレーニングには強力である。 MoEはクラウドやモバイル環境にデプロイするのは難しい。本稿では,目標下流タスクの非専門的専門家を段階的に降ろす方法を提案する。
論文参考訳（メタデータ） (2022-06-01T07:09:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。