論文の概要: Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners
- arxiv url: http://arxiv.org/abs/2206.04046v1
- Date: Wed, 8 Jun 2022 17:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:49:05.100704
- Title: Sparse Fusion Mixture-of-Experts are Domain Generalizable Learners
- Title(参考訳): Sparse Fusion Mixture-of-Experts is Domain Generalizable Learners
- Authors: Bo Li, Jingkang Yang, Jiawei Ren, Yezhen Wang, Ziwei Liu
- Abstract要約: ドメインの一般化は、分布シフトの下で一般化可能なモデルを学習することを目的としている。
本研究では,スパース融合実験法 (SF-MoE) を提案する。
SF-MoEは、大規模ベンチマークのドメイン一般化可能な学習者である。
- 参考スコア(独自算出の注目度): 35.002314862783564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Domain generalization (DG) aims at learning generalizable models under
distribution shifts to avoid redundantly overfitting massive training data.
Previous works with complex loss design and gradient constraint have not yet
led to empirical success on large-scale benchmarks. In this work, we reveal the
mixture-of-experts (MoE) model's generalizability on DG by leveraging to
distributively handle multiple aspects of the predictive features across
domains. To this end, we propose Sparse Fusion Mixture-of-Experts (SF-MoE),
which incorporates sparsity and fusion mechanisms into the MoE framework to
keep the model both sparse and predictive. SF-MoE has two dedicated modules: 1)
sparse block and 2) fusion block, which disentangle and aggregate the diverse
learned signals of an object, respectively. Extensive experiments demonstrate
that SF-MoE is a domain-generalizable learner on large-scale benchmarks. It
outperforms state-of-the-art counterparts by more than 2% across 5 large-scale
DG datasets (e.g., DomainNet), with the same or even lower computational costs.
We further reveal the internal mechanism of SF-MoE from distributed
representation perspective (e.g., visual attributes). We hope this framework
could facilitate future research to push generalizable object recognition to
the real world. Code and models are released at
https://github.com/Luodian/SF-MoE-DG.
- Abstract(参考訳): ドメイン一般化(dg)は、分散シフト下で一般化可能なモデルを学習することを目的としており、大量のトレーニングデータを冗長にオーバーフィットすることを避ける。
複雑な損失設計と勾配制約による以前の研究はまだ大規模なベンチマークで実証的な成功には至っていない。
そこで本研究では,DGにおけるMix-of-experts(MoE)モデルの一般化可能性を明らかにする。
そこで本研究では,Sparse Fusion Mixture-of-Experts (SF-MoE)を提案する。
SF-MoEには2つの専用モジュールがある。
1)スパースブロック、及び
2) 融合ブロックは, 物体の多様な学習信号をそれぞれ分離し, 集約する。
大規模なベンチマークにおいて、SF-MoEはドメイン一般化可能な学習者であることを示す。
これは5つの大規模 dg データセット (例えば domainnet) において、同じあるいは低い計算コストで、最先端の 2% 以上 を上回っている。
さらに,分散表現(視覚属性など)の観点からsf-moeの内部機構を明らかにする。
このフレームワークが将来の研究を促進し、一般化可能なオブジェクト認識を現実の世界に押し上げることを期待しています。
コードとモデルはhttps://github.com/Luodian/SF-MoE-DGで公開されている。
関連論文リスト
- RGM: A Robust Generalist Matching Model [53.223624323416914]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - FedBone: Towards Large-Scale Federated Multi-Task Learning [13.835972363413884]
現実世界のアプリケーションでは、視覚と自然言語のタスクは、高レベルの抽象的特徴を抽出するために大規模なモデルを必要とする。
既存のHFML手法は、マルチタスク最適化における勾配競合の影響を無視している。
我々はFedBoneと呼ばれる革新的なフレームワークを提案し、より優れた一般化を伴う大規模モデルの構築を可能にする。
論文 参考訳(メタデータ) (2023-06-30T08:19:38Z) - Causality-based Dual-Contrastive Learning Framework for Domain
Generalization [16.81075442901155]
ドメイン一般化(Domain Generalization, DG)は、本質的には分布外一般化のサブブランチである。
本稿では,機能およびプロトタイプのコントラストを考慮したDCL(Dual-Contrastive Learning)モジュールを提案する。
また、多様性シフトに関する情報を活用するために、類似性に基づくハードペアマイニング(SHM)戦略も導入する。
論文 参考訳(メタデータ) (2023-01-22T13:07:24Z) - FIXED: Frustratingly Easy Domain Generalization with Mixup [53.782029033068675]
ドメイン一般化(Domain Generalization, DG)は、複数のトレーニングドメインから一般化可能なモデルを学ぶことを目的としている。
一般的な戦略は、Mixupcitezhang 2018mixupのようなメソッドによる一般化のためにトレーニングデータを拡張することである。
我々は、MixupベースのDG、すなわちドメイン不変の特徴mIXup(FIX)の簡易かつ効果的な拡張を提案する。
提案手法は,9つの最先端手法よりも優れており,試験精度の面では,ベースラインの平均6.5%を上回っている。
論文 参考訳(メタデータ) (2022-11-07T09:38:34Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - All Grains, One Scheme (AGOS): Learning Multi-grain Instance
Representation for Aerial Scene Classification [31.412401135677744]
本稿では,これらの課題に対処するための新しい枠組みである1つのスキーム(AGOS)を提案する。
マルチグラインド認識モジュール(MGP)、マルチブランチマルチインスタンス表現モジュール(MBMIR)、自己整合セマンティックフュージョン(SSF)モジュールで構成される。
当社のAGOSは柔軟で,既存のCNNにプラグイン・アンド・プレイで容易に対応できる。
論文 参考訳(メタデータ) (2022-05-06T17:10:44Z) - Domain Generalization by Mutual-Information Regularization with
Pre-trained Models [20.53534134966378]
ドメイン一般化(DG)は、限られたソースドメインのみを使用して、見えないターゲットドメインに一般化されたモデルを学習することを目的としている。
我々は、任意の可能な領域に一般化されたモデルであるオラクルモデルとの相互情報を用いて、DGの目的を再定式化する。
実験の結果, Oracle (MIRO) による相互情報正規化は, アウト・オブ・ディストリビューション性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2022-03-21T08:07:46Z) - META: Mimicking Embedding via oThers' Aggregation for Generalizable
Person Re-identification [68.39849081353704]
Domain Generalizable (DG) Person Re-identification (ReID)は、トレーニング時に対象のドメインデータにアクセスすることなく、見えないドメインをまたいでテストすることを目的としている。
本稿では,DG ReID のための OThers' Aggregation (META) を用いた Mimicking Embedding という新しい手法を提案する。
論文 参考訳(メタデータ) (2021-12-16T08:06:50Z) - Improved RAMEN: Towards Domain Generalization for Visual Question
Answering [0.0]
RAMENモデルのciteShrestha 2019は、2つの主要なVQAデータセットの最高スコアを取得することで、ドメインの一般化を実現することを目的としている。
本研究はRAMENアーキテクチャの初期/後期融合モジュールとアグリゲーションモジュールに2つの大きな改善を加えたものである。
その結果, 2つの改善が領域一般化問題に与える影響について検討した。
論文 参考訳(メタデータ) (2021-09-06T11:19:57Z) - Cauchy-Schwarz Regularized Autoencoder [68.80569889599434]
変分オートエンコーダ(VAE)は、強力で広く使われている生成モデルのクラスである。
GMMに対して解析的に計算できるCauchy-Schwarz分散に基づく新しい制約対象を導入する。
本研究の目的は,密度推定,教師なしクラスタリング,半教師なし学習,顔分析における変分自動エンコーディングモデルの改善である。
論文 参考訳(メタデータ) (2021-01-06T17:36:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。