論文の概要: Uniformly Distributed Category Prototype-Guided Vision-Language
Framework for Long-Tail Recognition
- arxiv url: http://arxiv.org/abs/2308.12522v2
- Date: Mon, 6 Nov 2023 16:16:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 21:12:14.632421
- Title: Uniformly Distributed Category Prototype-Guided Vision-Language
Framework for Long-Tail Recognition
- Title(参考訳): ロングテール認識のための一様分布カテゴリプロトタイプ視覚言語フレームワーク
- Authors: Siming Fu, Xiaoxuan He, Xinpeng Ding, Yuchen Cao, Hualiang Wang
- Abstract要約: 本研究では,データ不均衡に起因する特徴空間バイアスを効果的に緩和する,一様に分類されたプロトタイプ誘導型視覚言語フレームワークを提案する。
提案手法は,長期学習作業における従来の視覚言語手法よりも大きなマージンを達成し,最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 11.110124286206467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, large-scale pre-trained vision-language models have presented
benefits for alleviating class imbalance in long-tailed recognition. However,
the long-tailed data distribution can corrupt the representation space, where
the distance between head and tail categories is much larger than the distance
between two tail categories. This uneven feature space distribution causes the
model to exhibit unclear and inseparable decision boundaries on the uniformly
distributed test set, which lowers its performance. To address these
challenges, we propose the uniformly category prototype-guided vision-language
framework to effectively mitigate feature space bias caused by data imbalance.
Especially, we generate a set of category prototypes uniformly distributed on a
hypersphere. Category prototype-guided mechanism for image-text matching makes
the features of different classes converge to these distinct and uniformly
distributed category prototypes, which maintain a uniform distribution in the
feature space, and improve class boundaries. Additionally, our proposed
irrelevant text filtering and attribute enhancement module allows the model to
ignore irrelevant noisy text and focus more on key attribute information,
thereby enhancing the robustness of our framework. In the image recognition
fine-tuning stage, to address the positive bias problem of the learnable
classifier, we design the class feature prototype-guided classifier, which
compensates for the performance of tail classes while maintaining the
performance of head classes. Our method outperforms previous vision-language
methods for long-tailed learning work by a large margin and achieves
state-of-the-art performance.
- Abstract(参考訳): 近年,大規模事前学習型視覚言語モデルでは,長期認識におけるクラス不均衡を緩和する利点がある。
しかし、ロングテールデータ分布は、ヘッドとテールの間の距離が2つのテールカテゴリ間の距離よりもはるかに大きい表現空間を壊す可能性がある。
この不均一な特徴空間分布は、一様分散テストセット上で不明瞭で分離不能な決定境界を示し、その性能を低下させる。
これらの課題に対処するために、データ不均衡に起因する特徴空間バイアスを効果的に軽減する一意のプロトタイプ誘導視覚言語フレームワークを提案する。
特に,超球面上に均一に分布するカテゴリプロトタイプの集合を生成する。
画像テキストマッチングのためのカテゴリプロトタイプ誘導メカニズムにより、異なるクラスの特徴は、特徴空間における均一な分布を維持し、クラス境界を改善するこれらの個別かつ均一に分散したカテゴリプロトタイプに収束する。
さらに、提案した非関連テキストフィルタリングおよび属性拡張モジュールにより、無関係なノイズテキストを無視し、キー属性情報により集中し、フレームワークの堅牢性を高めることができる。
画像認識の微調整段階において、学習可能な分類器の正のバイアス問題に対処するため、ヘッドクラスの性能を維持しながらテールクラスの性能を補うクラス特徴量誘導型分類器を設計する。
提案手法は,長期学習における従来の視覚言語手法よりも高い性能を示し,最先端の性能を実現する。
関連論文リスト
- Simple-Sampling and Hard-Mixup with Prototypes to Rebalance Contrastive Learning for Text Classification [11.072083437769093]
我々は不均衡テキスト分類タスクのためのSharpReCLという新しいモデルを提案する。
私たちのモデルは、いくつかのデータセットで人気のある大きな言語モデルよりも優れています。
論文 参考訳(メタデータ) (2024-05-19T11:33:49Z) - Subclass-balancing Contrastive Learning for Long-tailed Recognition [38.31221755013738]
不均衡なクラス分布を持つロングテール認識は、実践的な機械学習アプリケーションで自然に現れる。
そこで我々は,各ヘッドクラスを複数のサブクラスにクラスタリングする,新しいサブクラスバランス・コントラッシブ・ラーニング・アプローチを提案する。
我々は,長期化ベンチマークデータセットの一覧からSBCLを評価し,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-06-28T05:08:43Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - CAD: Co-Adapting Discriminative Features for Improved Few-Shot
Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。
最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。
本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T06:14:51Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Rethinking Class-Balanced Methods for Long-Tailed Visual Recognition
from a Domain Adaptation Perspective [98.70226503904402]
現実世界のオブジェクトの周波数は、しばしば電力法則に従い、長い尾のクラス分布を持つデータセット間のミスマッチを引き起こす。
メタラーニング手法を用いて,クラス条件分布の違いを明示的に推定し,古典的なクラスバランス学習を強化することを提案する。
論文 参考訳(メタデータ) (2020-03-24T11:28:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。