論文の概要: Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners
- arxiv url: http://arxiv.org/abs/2206.04046v1
- Date: Wed, 8 Jun 2022 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:49:05.100704
- Title: Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners
- Title(参考訳): Sparse Fusion Mixture-of-Experts is Domain Generalizable Learners
- Authors: Bo Li, Jingkang Yang, Jiawei Ren, Yezhen Wang, Ziwei Liu
- Abstract要約: ドメインの一般化は、分布シフトの下で一般化可能なモデルを学習することを目的としている。
本研究では,スパース融合実験法 (SF-MoE) を提案する。
SF-MoEは、大規模ベンチマークのドメイン一般化可能な学習者である。
- 参考スコア(独自算出の注目度): 35.002314862783564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain generalization (DG) aims at learning generalizable models under
distribution shifts to avoid redundantly overfitting massive training data.
Previous works with complex loss design and gradient constraint have not yet
led to empirical success on large-scale benchmarks. In this work, we reveal the
mixture-of-experts (MoE) model's generalizability on DG by leveraging to
distributively handle multiple aspects of the predictive features across
domains. To this end, we propose Sparse Fusion Mixture-of-Experts (SF-MoE),
which incorporates sparsity and fusion mechanisms into the MoE framework to
keep the model both sparse and predictive. SF-MoE has two dedicated modules: 1)
sparse block and 2) fusion block, which disentangle and aggregate the diverse
learned signals of an object, respectively. Extensive experiments demonstrate
that SF-MoE is a domain-generalizable learner on large-scale benchmarks. It
outperforms state-of-the-art counterparts by more than 2% across 5 large-scale
DG datasets (e.g., DomainNet), with the same or even lower computational costs.
We further reveal the internal mechanism of SF-MoE from distributed
representation perspective (e.g., visual attributes). We hope this framework
could facilitate future research to push generalizable object recognition to
the real world. Code and models are released at
https://github.com/Luodian/SF-MoE-DG.
- Abstract(参考訳): ドメイン一般化(dg)は、分散シフト下で一般化可能なモデルを学習することを目的としており、大量のトレーニングデータを冗長にオーバーフィットすることを避ける。
複雑な損失設計と勾配制約による以前の研究はまだ大規模なベンチマークで実証的な成功には至っていない。
そこで本研究では,DGにおけるMix-of-experts(MoE)モデルの一般化可能性を明らかにする。
そこで本研究では,Sparse Fusion Mixture-of-Experts (SF-MoE)を提案する。
SF-MoEには2つの専用モジュールがある。
1)スパースブロック、及び
2) 融合ブロックは, 物体の多様な学習信号をそれぞれ分離し, 集約する。
大規模なベンチマークにおいて、SF-MoEはドメイン一般化可能な学習者であることを示す。
これは5つの大規模 dg データセット (例えば domainnet) において、同じあるいは低い計算コストで、最先端の 2% 以上 を上回っている。
さらに,分散表現(視覚属性など)の観点からsf-moeの内部機構を明らかにする。
このフレームワークが将来の研究を促進し、一般化可能なオブジェクト認識を現実の世界に押し上げることを期待しています。
コードとモデルはhttps://github.com/Luodian/SF-MoE-DGで公開されている。
関連論文リスト
- SurgeryV2: Bridging the Gap Between Model Merging and Multi-Task Learning with Deep Representation Surgery [54.866490321241905]
モデルマージに基づくマルチタスク学習(MTL)は、複数のエキスパートモデルをマージしてMTLを実行するための有望なアプローチを提供する。
本稿では,統合モデルの表現分布について検討し,「表現バイアス」の重要な問題を明らかにする。
このバイアスは、マージされたMTLモデルの表現と専門家モデルの間の大きな分布ギャップから生じ、マージされたMTLモデルの最適下性能に繋がる。
論文 参考訳(メタデータ) (2024-10-18T11:49:40Z) - FedMoE: Personalized Federated Learning via Heterogeneous Mixture of Experts [4.412721048192925]
我々は、データ不均一性に対処するための効率的パーソナライズされたFederated LearningフレームワークであるFedMoEを紹介する。
FedMoEは2つの微調整段階から構成されており、第1段階では、観測されたアクティベーションパターンに基づいて探索を行うことで問題を単純化する。
第2段階では、これらのサブモデルはさらなるトレーニングのためにクライアントに配布され、サーバ集約のために返される。
論文 参考訳(メタデータ) (2024-08-21T03:16:12Z) - A Closer Look into Mixture-of-Experts in Large Language Models [26.503570706063634]
エクササイズ・オブ・エクササイズ(Mixture-of-experts, MOE)は,その特性と顕著な性能から注目を集めている。
MoEアーキテクチャは計算効率を犠牲にすることなくモデルサイズを増大させることができる。
本稿は,MoEベースの大規模言語モデルの内部動作を理解するための最初の試みである。
論文 参考訳(メタデータ) (2024-06-26T10:07:57Z) - DGMamba: Domain Generalization via Generalized State Space Model [80.82253601531164]
ドメイン一般化(DG)は、様々な場面における分散シフト問題を解決することを目的としている。
Mambaは、新興状態空間モデル(SSM)として、より優れた線形複雑性と大域的受容場を持つ。
本稿では,DGMamba という新たな DG フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-11T14:35:59Z) - Deep Generative Models through the Lens of the Manifold Hypothesis: A Survey and New Connections [15.191007332508198]
本研究では,低内在次元のデータモデリングにおいて,高周囲次元の確率の数値的不安定性は避けられないことを示す。
次に、オートエンコーダの学習表現上のDGMは、ワッサーシュタイン距離をほぼ最小化するものとして解釈できることを示す。
論文 参考訳(メタデータ) (2024-04-03T18:00:00Z) - FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。