論文の概要: Multi-label Cluster Discrimination for Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2407.17331v2
- Date: Wed, 6 Nov 2024 08:22:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 15:23:20.821821
- Title: Multi-label Cluster Discrimination for Visual Representation Learning
- Title(参考訳): 視覚表現学習のためのマルチラベルクラスタ識別
- Authors: Xiang An, Kaicheng Yang, Xiangzi Dai, Ziyong Feng, Jiankang Deng,
- Abstract要約: 本稿では,表現学習を強化するため,MLCDと呼ばれる新しいマルチラベルクラスタ識別手法を提案する。
本手法は,線形プローブ,ゼロショット分類,画像テキスト検索など,複数の下流タスクにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 27.552024985952166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language Image Pre-training (CLIP) has recently demonstrated success across various tasks due to superior feature representation empowered by image-text contrastive learning. However, the instance discrimination method used by CLIP can hardly encode the semantic structure of training data. To handle this limitation, cluster discrimination has been proposed through iterative cluster assignment and classification. Nevertheless, most cluster discrimination approaches only define a single pseudo-label for each image, neglecting multi-label signals in the image. In this paper, we propose a novel Multi-Label Cluster Discrimination method named MLCD to enhance representation learning. In the clustering step, we first cluster the large-scale LAION-400M dataset into one million centers based on off-the-shelf embedding features. Considering that natural images frequently contain multiple visual objects or attributes, we select the multiple closest centers as auxiliary class labels. In the discrimination step, we design a novel multi-label classification loss, which elegantly separates losses from positive classes and negative classes, and alleviates ambiguity on decision boundary. We validate the proposed multi-label cluster discrimination method with experiments on different scales of models and pre-training datasets. Experimental results show that our method achieves state-of-the-art performance on multiple downstream tasks including linear probe, zero-shot classification, and image-text retrieval. Code and models have been released at https://github.com/deepglint/unicom .
- Abstract(参考訳): コントラスト言語画像事前学習(CLIP)は、画像テキストのコントラスト学習によって強化された優れた特徴表現により、様々なタスクで成功した。
しかし、CLIPが使用するインスタンス識別手法では、トレーニングデータのセマンティック構造をほとんどエンコードできない。
この制限に対処するため、反復的なクラスタ割り当てと分類によってクラスタ識別が提案されている。
しかしながら、ほとんどのクラスタ識別アプローチは、画像内の複数ラベル信号を無視して、各画像に対して1つの擬似ラベルを定義するだけである。
本稿では,MLCDと呼ばれる新しいマルチラベルクラスタ識別手法を提案する。
クラスタリングのステップでは、まず大規模なLAION-400Mデータセットを、オフザシェルフの埋め込み機能に基づいて100万のセンタにクラスタ化します。
自然画像には複数の視覚的対象や属性が頻繁に含まれており、補助的なクラスラベルとして複数の最も近い中心を選択する。
識別段階において、我々は、正のクラスと負のクラスから損失を優雅に分離し、決定境界の曖昧さを軽減する、新しい多ラベル分類損失を設計する。
モデルと事前学習データセットの異なるスケールの実験により,提案手法の有効性を検証した。
実験の結果,線形プローブ,ゼロショット分類,画像テキスト検索など,複数の下流タスクにおける最先端性能が得られた。
コードとモデルはhttps://github.com/deepglint/unicom でリリースされた。
関連論文リスト
- Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Learning Semi-supervised Gaussian Mixture Models for Generalized
Category Discovery [36.01459228175808]
本稿では,表現学習とクラス数推定を交互に行うEMライクなフレームワークを提案する。
汎用画像分類データセットと細粒度オブジェクト認識データセットの双方について,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-05-10T13:47:38Z) - Reliable Representations Learning for Incomplete Multi-View Partial Multi-Label Classification [78.15629210659516]
本稿ではRANKという不完全なマルチビュー部分的マルチラベル分類ネットワークを提案する。
既存の手法に固有のビューレベルの重みを分解し、各サンプルのビューに品質スコアを動的に割り当てる品質対応サブネットワークを提案する。
我々のモデルは、完全なマルチビューマルチラベルデータセットを処理できるだけでなく、欠落したインスタンスやラベルを持つデータセットでも機能する。
論文 参考訳(メタデータ) (2023-03-30T03:09:25Z) - Learning Disentangled Label Representations for Multi-label
Classification [39.97251974500034]
One-Shared-Feature-for-Multiple-Labels (OFML) は識別ラベルの特徴を学習するのに役立ちません。
我々は,One-specific-Feature-for-One-Label(OFOL)機構を導入し,新しいアンタングル付きラベル特徴学習フレームワークを提案する。
8つのデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-12-02T21:49:34Z) - Combining Metric Learning and Attention Heads For Accurate and Efficient
Multilabel Image Classification [0.0]
マルチラベル分類における2つの一般的なアプローチについて再検討する。
トランスフォーマーベースヘッドはグラフベースのブランチよりも優れた結果が得られると考えられるが、適切なトレーニング戦略により、グラフベースの手法はわずかに精度の低下を示すことができると論じる。
論文 参考訳(メタデータ) (2022-09-14T12:06:47Z) - Label Structure Preserving Contrastive Embedding for Multi-Label
Learning with Missing Labels [30.79809627981242]
欠落ラベルを識別するためのラベル補正機構を導入し、欠落ラベル(CLML)を用いた多ラベル画像分類において、ユニークなコントラスト損失を定義する。
既存のマルチラベルCLの損失とは異なり、CLMLは潜在表現空間における低ランクなグローバルおよびローカルなラベル依存性も保持する。
提案した戦略は、3つの標準データセットでそれぞれ1.2%、1.6%、および1.3%のマージンでResnet101モデルの分類性能を改善することが示されている。
論文 参考訳(メタデータ) (2022-09-03T02:44:07Z) - Learning Discriminative Representations for Multi-Label Image
Recognition [13.13795708478267]
マルチラベルタスクにおける識別的特徴を学習するための統合深層ネットワークを提案する。
ネットワーク全体を正規化することで、よく知られたResNet-101の適用性能が大幅に向上する。
論文 参考訳(メタデータ) (2021-07-23T12:10:46Z) - Neighborhood Contrastive Learning for Novel Class Discovery [79.14767688903028]
我々は,クラスタリング性能に重要な識別表現を学習するために,Neighborhood Contrastive Learningという新しいフレームワークを構築した。
これらの2つの成分がクラスタリング性能に大きく寄与し、我々のモデルが最先端の手法よりも大きなマージンで優れていることを実験的に実証した。
論文 参考訳(メタデータ) (2021-06-20T17:34:55Z) - Rank-Consistency Deep Hashing for Scalable Multi-Label Image Search [90.30623718137244]
スケーラブルなマルチラベル画像検索のための新しいディープハッシュ法を提案する。
2つの空間の類似性順序を整列するために、新しい階数整合性目的を適用した。
強力な損失関数は、意味的類似性とハミング距離が一致しないサンプルをペナルティ化するように設計されている。
論文 参考訳(メタデータ) (2021-02-02T13:46:58Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。