論文の概要: Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts
- arxiv url: http://arxiv.org/abs/2402.05382v1
- Date: Thu, 8 Feb 2024 03:46:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 16:30:45.986110
- Title: Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts
- Title(参考訳): クラスタ条件エキスパートの混合によるタスクカスタマイズマスク自動エンコーダ
- Authors: Zhili Liu, Kai Chen, Jianhua Han, Lanqing Hong, Hang Xu, Zhenguo Li,
James T. Kwok
- Abstract要約: Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
- 参考スコア(独自算出の注目度): 104.9871176044644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Masked Autoencoder~(MAE) is a prevailing self-supervised learning method that
achieves promising results in model pre-training. However, when the various
downstream tasks have data distributions different from the pre-training data,
the semantically irrelevant pre-training information might result in negative
transfer, impeding MAE's scalability. To address this issue, we propose a novel
MAE-based pre-training paradigm, Mixture of Cluster-conditional Experts (MoCE),
which can be trained once but provides customized pre-training models for
diverse downstream tasks. Different from the mixture of experts (MoE), our MoCE
trains each expert only with semantically relevant images by using
cluster-conditional gates. Thus, each downstream task can be allocated to its
customized model pre-trained with data most similar to the downstream data.
Experiments on a collection of 11 downstream tasks show that MoCE outperforms
the vanilla MAE by 2.45\% on average. It also obtains new state-of-the-art
self-supervised learning results on detection and segmentation.
- Abstract(参考訳): Masked Autoencoder~(MAE)は,モデル事前学習において有望な結果が得られる自己指導型学習手法である。
しかし、様々な下流タスクが事前学習データとは異なるデータ分布を持つ場合、意味的に無関係な事前学習情報は負の転送をもたらし、MAEのスケーラビリティを阻害する可能性がある。
この問題に対処するために,新しいMAEベースの事前学習パラダイムであるMixture of Cluster-conditional Experts (MoCE)を提案する。
専門家の混合(moe)とは異なり、moceはクラスタ条件ゲートを使用して、各専門家に意味的に関連のあるイメージのみを訓練します。
したがって、各ダウンストリームタスクは、ダウンストリームデータに最もよく似たデータで事前訓練されたカスタマイズされたモデルに割り当てることができる。
11の下流タスクのコレクションの実験では、MoCEはバニラMAEを平均2.45 %上回っている。
また、検出とセグメンテーションに関する新しい最先端の自己教師付き学習結果を得る。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Dynamic Data Mixing Maximizes Instruction Tuning for Mixture-of-Experts [20.202031878825153]
そこで本研究では,MoE命令チューニングのための新しい動的データ混合手法を提案する。
MoEのトークンルーティングの好みにインスパイアされた私たちは、データセットレベルの表現を構築し、データセット間の微妙な違いをキャプチャします。
2つのMoEモデルの結果は、下流の知識と推論タスクとオープンエンドクエリの両方に対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-06-17T06:47:03Z) - Building a Winning Team: Selecting Source Model Ensembles using a
Submodular Transferability Estimation Approach [20.86345962679122]
公開されている事前訓練されたモデルの目標タスクへの転送可能性の推定は、伝達学習タスクにとって重要な場所となっている。
本稿では, モデルアンサンブルの下流タスクへの転送可能性を評価するために, 最適なtranSportベースのsuBmOdular tRaNsferability Metrics(OSBORN)を提案する。
論文 参考訳(メタデータ) (2023-09-05T17:57:31Z) - SEPT: Towards Scalable and Efficient Visual Pre-Training [11.345844145289524]
自己教師付き事前トレーニングは、ダウンストリームタスクのパフォーマンスを改善するために大規模なラベルなしデータを活用する大きな可能性を示している。
タスク固有の自己教師型事前学習フレームワークを構築し,対象タスクに類似した分布を持つ未ラベルサンプルの事前学習が,大幅な性能向上をもたらすという単純な仮説に基づいて構築する。
論文 参考訳(メタデータ) (2022-12-11T11:02:11Z) - Continual Learning with Optimal Transport based Mixture Model [17.398605698033656]
成熟最適輸送理論(OT-MM)の優れた性質に基づくオンライン混合モデル学習手法を提案する。
提案手法は,現在の最先端のベースラインを大きく上回ることができる。
論文 参考訳(メタデータ) (2022-11-30T06:40:29Z) - Masked Autoencoding for Scalable and Generalizable Decision Making [93.84855114717062]
MaskDPは、強化学習と行動クローンのためのシンプルでスケーラブルな自己教師付き事前学習手法である。
我々は,MaskDPモデルにより,単一ゴールや複数ゴール到達といった新しいBCタスクへのゼロショット転送能力が得られることを発見した。
論文 参考訳(メタデータ) (2022-11-23T07:04:41Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Lightweight Conditional Model Extrapolation for Streaming Data under
Class-Prior Shift [27.806085423595334]
非定常ストリーミングデータを用いて学習する新しい方法であるLIMESを紹介する。
我々は、特定のデータ分布に対する特定の分類器を導出するモデルパラメータの集合を1つ学習する。
Twitterデータを用いた一連の模範的なタスクの実験では、LIMESが代替手法よりも高い精度を達成することが示された。
論文 参考訳(メタデータ) (2022-06-10T15:19:52Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。