Fugu-MT 論文翻訳(概要): Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners

論文の概要: Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners

arxiv url: http://arxiv.org/abs/2206.04046v1
Date: Wed, 8 Jun 2022 17:59:57 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-09 13:49:05.100704
Title: Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners
Title（参考訳）: Sparse Fusion Mixture-of-Experts is Domain Generalizable Learners
Authors: Bo Li, Jingkang Yang, Jiawei Ren, Yezhen Wang, Ziwei Liu
Abstract要約: ドメインの一般化は、分布シフトの下で一般化可能なモデルを学習することを目的としている。本研究では,スパース融合実験法 (SF-MoE) を提案する。 SF-MoEは、大規模ベンチマークのドメイン一般化可能な学習者である。
参考スコア（独自算出の注目度）: 35.002314862783564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Domain generalization (DG) aims at learning generalizable models under distribution shifts to avoid redundantly overfitting massive training data. Previous works with complex loss design and gradient constraint have not yet led to empirical success on large-scale benchmarks. In this work, we reveal the mixture-of-experts (MoE) model's generalizability on DG by leveraging to distributively handle multiple aspects of the predictive features across domains. To this end, we propose Sparse Fusion Mixture-of-Experts (SF-MoE), which incorporates sparsity and fusion mechanisms into the MoE framework to keep the model both sparse and predictive. SF-MoE has two dedicated modules: 1) sparse block and 2) fusion block, which disentangle and aggregate the diverse learned signals of an object, respectively. Extensive experiments demonstrate that SF-MoE is a domain-generalizable learner on large-scale benchmarks. It outperforms state-of-the-art counterparts by more than 2% across 5 large-scale DG datasets (e.g., DomainNet), with the same or even lower computational costs. We further reveal the internal mechanism of SF-MoE from distributed representation perspective (e.g., visual attributes). We hope this framework could facilitate future research to push generalizable object recognition to the real world. Code and models are released at https://github.com/Luodian/SF-MoE-DG.
Abstract（参考訳）: ドメイン一般化(dg)は、分散シフト下で一般化可能なモデルを学習することを目的としており、大量のトレーニングデータを冗長にオーバーフィットすることを避ける。複雑な損失設計と勾配制約による以前の研究はまだ大規模なベンチマークで実証的な成功には至っていない。そこで本研究では,DGにおけるMix-of-experts(MoE)モデルの一般化可能性を明らかにする。そこで本研究では,Sparse Fusion Mixture-of-Experts (SF-MoE)を提案する。 SF-MoEには2つの専用モジュールがある。 1)スパースブロック、及び 2) 融合ブロックは, 物体の多様な学習信号をそれぞれ分離し, 集約する。大規模なベンチマークにおいて、SF-MoEはドメイン一般化可能な学習者であることを示す。これは5つの大規模 dg データセット (例えば domainnet) において、同じあるいは低い計算コストで、最先端の 2% 以上を上回っている。さらに,分散表現(視覚属性など)の観点からsf-moeの内部機構を明らかにする。このフレームワークが将来の研究を促進し、一般化可能なオブジェクト認識を現実の世界に押し上げることを期待しています。コードとモデルはhttps://github.com/Luodian/SF-MoE-DGで公開されている。

関連論文リスト

Mosaic: Data-Free Knowledge Distillation via Mixture-of-Experts for Heterogeneous Distributed Environments [8.494154839146622]
Federated Learning(FL)は、クライアントがデータのプライバシを保持しながらモデルを協調的にトレーニングすることを可能にする、分散機械学習パラダイムである。異種分散環境に適した新しいデータフリーな知識蒸留フレームワークであるMosaicを提案する。 Mosaicは、専門知識に基づいてクライアントモデルからMixture-of-Experts(MoE)を作成し、生成されたデータを使用してグローバルモデルに蒸留する。
論文参考訳（メタデータ） (2025-05-26T08:52:49Z)
Mixture of Group Experts for Learning Invariant Representations [25.935653652324532]
わずかに活性化されたMixture-of-Experts (MoE)モデルはトークン当たりの一貫した計算コストを維持しながらパラメータ数を効果的に増加させる。スパース表現にインスパイアされた上位$kのルーティングによるバニラMOEの新しい視点を示す。グループエキスパートの混合(Mixture of Group Experts, MOGE)と呼ばれるトップ$kのルーティング入力に対するグループスパース正規化手法を提案する。
論文参考訳（メタデータ） (2025-04-12T15:58:02Z)
Mamba as a Bridge: Where Vision Foundation Models Meet Vision Language Models for Domain-Generalized Semantic Segmentation [23.702783589405236]
Vision Foundation Models(VFM)とVision-Language Models(VLM)はドメイン一般化セマンティック(DGSS)で注目を集めている。本稿では, VFM と VLM の強度を効率よく組み合わせた, マンバをベースとした新しい融合フレームワーク MFuser を提案する。提案手法は,高い計算オーバーヘッドを伴わずに,高精度な特徴局所性と強いテキストアライメントを実現する。
論文参考訳（メタデータ） (2025-04-04T05:44:45Z)
SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文参考訳（メタデータ） (2024-10-18T11:49:40Z)
FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。 FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文参考訳（メタデータ） (2024-08-21T03:16:12Z)
A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。 MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文参考訳（メタデータ） (2024-06-26T10:07:57Z)
DGMamba: Domain Generalization via Generalized State Space Model [80.82253601531164]
ドメイン一般化(DG)は、様々な場面における分散シフト問題を解決することを目的としている。 Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。本稿では,DGMamba という新たな DG フレームワークを提案する。
論文参考訳（メタデータ） (2024-04-11T14:35:59Z)
Deep Generative Models through the Lens of the Manifold Hypothesis: A Survey and New Connections [15.191007332508198]
本研究では,低内在次元のデータモデリングにおいて,高周囲次元の確率の数値的不安定性は避けられないことを示す。次に、オートエンコーダの学習表現上のDGMは、ワッサーシュタイン距離をほぼ最小化するものとして解釈できることを示す。
論文参考訳（メタデータ） (2024-04-03T18:00:00Z)
FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文参考訳（メタデータ） (2023-06-30T08:19:38Z)
Learning to Augment via Implicit Differentiation for Domain Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。 AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文参考訳（メタデータ） (2022-10-25T18:51:51Z)
META: Mimicking Embedding via oThers' Aggregation for Generalizable Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文参考訳（メタデータ） (2021-12-16T08:06:50Z)
Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。 GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文参考訳（メタデータ） (2021-01-06T17:36:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。