論文の概要: MoDE: CLIP Data Experts via Clustering
- arxiv url: http://arxiv.org/abs/2404.16030v1
- Date: Wed, 24 Apr 2024 17:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 18:22:04.777820
- Title: MoDE: CLIP Data Experts via Clustering
- Title(参考訳): MoDE: クラスタリングによるCLIPデータエキスパート
- Authors: Jiawei Ma, Po-Yao Huang, Saining Xie, Shang-Wen Li, Luke Zettlemoyer, Shih-Fu Chang, Wen-Tau Yih, Hu Xu,
- Abstract要約: データエキスパートの混合(Mixture of Data Experts, MODE)を提示し,クラスタリングによるCLIPデータエキスパートのシステム学習を行う。
各データエキスパートは、あるデータクラスタでトレーニングされ、他のクラスタの偽陰性ノイズに対する感度が低い。
実験によると、ViT-B/16の4人のCLIPデータ専門家が、OpenAI CLIPとOpenCLIPによるViT-L/14のゼロショット画像分類よりも優れていた。
- 参考スコア(独自算出の注目度): 119.88225963429569
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The success of contrastive language-image pretraining (CLIP) relies on the supervision from the pairing between images and captions, which tends to be noisy in web-crawled data. We present Mixture of Data Experts (MoDE) and learn a system of CLIP data experts via clustering. Each data expert is trained on one data cluster, being less sensitive to false negative noises in other clusters. At inference time, we ensemble their outputs by applying weights determined through the correlation between task metadata and cluster conditions. To estimate the correlation precisely, the samples in one cluster should be semantically similar, but the number of data experts should still be reasonable for training and inference. As such, we consider the ontology in human language and propose to use fine-grained cluster centers to represent each data expert at a coarse-grained level. Experimental studies show that four CLIP data experts on ViT-B/16 outperform the ViT-L/14 by OpenAI CLIP and OpenCLIP on zero-shot image classification but with less ($<$35\%) training cost. Meanwhile, MoDE can train all data expert asynchronously and can flexibly include new data experts. The code is available at https://github.com/facebookresearch/MetaCLIP/tree/main/mode.
- Abstract(参考訳): 対照的な言語画像事前訓練(CLIP)の成功は、画像とキャプションのペアリングによる監督に依存しており、ウェブクローリングされたデータでは騒がしい傾向にある。
データエキスパートの混合(Mixture of Data Experts, MODE)を提示し,クラスタリングによるCLIPデータエキスパートのシステム学習を行う。
各データエキスパートは、あるデータクラスタでトレーニングされ、他のクラスタの偽陰性ノイズに対する感度が低い。
推定時には,タスクメタデータとクラスタ条件の相関関係から決定される重みを適用して,それらの出力をアンサンブルする。
相関関係を正確に推定するには、あるクラスタ内のサンプルは意味論的に類似するべきであるが、データ専門家の数は、トレーニングと推論に妥当である必要がある。
このように、人間の言語におけるオントロジーを考察し、粗粒度レベルで各データエキスパートを表現するために、きめ細かいクラスタセンターを使うことを提案する。
実験によると、ViT-B/16の4人のCLIPデータ専門家が、OpenAI CLIPとOpenCLIPによるViT-L/14のゼロショット画像分類よりも優れており、トレーニングコストは安い($35\%)。
一方、MoDEはすべてのデータエキスパートを非同期にトレーニングすることができ、フレキシブルに新しいデータエキスパートを組み込むことができます。
コードはhttps://github.com/facebookresearch/MetaCLIP/tree/main/modeで公開されている。
関連論文リスト
- FedClust: Tackling Data Heterogeneity in Federated Learning through Weight-Driven Client Clustering [26.478852701376294]
フェデレートラーニング(Federated Learning, FL)は、分散機械学習のパラダイムである。
FLの主な課題の1つは、クライアントデバイスにまたがる不均一なデータ分散の存在である。
我々は,局所モデル重みとクライアントのデータ分布の相関を利用したCFLの新しい手法であるFedClustを提案する。
論文 参考訳(メタデータ) (2024-07-09T02:47:16Z) - Task-customized Masked AutoEncoder via Mixture of Cluster-conditional
Experts [104.9871176044644]
Masked Autoencoder (MAE) は,モデル事前学習において有望な結果が得られる自己教師型学習手法である。
我々は、新しいMAEベースの事前学習パラダイム、Mixture of Cluster-conditional Experts (MoCE)を提案する。
MoCEは、クラスタ条件ゲートを使用して、各専門家にセマンティックなイメージのみをトレーニングする。
論文 参考訳(メタデータ) (2024-02-08T03:46:32Z) - Demystifying CLIP Data [86.34045746910114]
Contrastive Language-Image Pre-Training (CLIP) はコンピュータビジョンの先進的な研究と応用を行っている。
メタデータ変換言語画像事前学習(MetaCLIP)について紹介する。
MetaCLIPは生のデータプールとメタデータ(CLIPの概念から派生したもの)を取り、メタデータの分布に対してバランスの取れたサブセットを生成する。
論文 参考訳(メタデータ) (2023-09-28T17:59:56Z) - CLC: Cluster Assignment via Contrastive Representation Learning [9.631532215759256]
コントラスト学習を用いてクラスタ割り当てを直接学習するコントラスト学習ベースのクラスタリング(CLC)を提案する。
完全なImageNetデータセットで53.4%の精度を実現し、既存のメソッドを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2023-06-08T07:15:13Z) - ClusterNet: A Perception-Based Clustering Model for Scattered Data [16.326062082938215]
クラスタ分離は、一般的に広く使用されているクラスタリング技術によって取り組まれるタスクである。
本稿では,分散データを直接操作する学習戦略を提案する。
私たちは、ポイントベースのディープラーニングモデルであるClusterNetをトレーニングし、クラスタ分離性に対する人間の認識を反映するように訓練します。
論文 参考訳(メタデータ) (2023-04-27T13:41:12Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - CADIS: Handling Cluster-skewed Non-IID Data in Federated Learning with
Clustered Aggregation and Knowledge DIStilled Regularization [3.3711670942444014]
フェデレーション学習は、エッジデバイスがデータを公開することなく、グローバルモデルを協調的にトレーニングすることを可能にする。
我々は、実際のデータセットで発見されたクラスタスキュード非IIDと呼ばれる新しいタイプの非IIDデータに取り組む。
本稿では,クラスタ間の平等を保証するアグリゲーション方式を提案する。
論文 参考訳(メタデータ) (2023-02-21T02:53:37Z) - You Never Cluster Alone [150.94921340034688]
我々は、主流のコントラスト学習パラダイムをクラスタレベルのスキームに拡張し、同じクラスタに属するすべてのデータが統一された表現に寄与する。
分類変数の集合をクラスタ化代入信頼度として定義し、インスタンスレベルの学習トラックとクラスタレベルの学習トラックを関連付ける。
代入変数を再パラメータ化することで、TCCはエンドツーエンドでトレーニングされる。
論文 参考訳(メタデータ) (2021-06-03T14:59:59Z) - Meta Clustering for Collaborative Learning [13.003650251457193]
協調学習では、学習者はそれぞれの学習性能を高めるために協調する。
学習者の視点から見れば、重要な課題は、資格のない協力者をフィルタリングすることである。
この課題に対処するため,メタクラスタリングというフレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-29T21:11:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。