論文の概要: Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition
- arxiv url: http://arxiv.org/abs/2511.20641v1
- Date: Tue, 25 Nov 2025 18:57:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.640456
- Title: Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition
- Title(参考訳): 長距離マルチラベル視覚認識のための視覚言語モデルのパワーの解放
- Authors: Wei Tang, Zuo-Zheng Wang, Kun Zhang, Tong Wei, Min-Ling Zhang,
- Abstract要約: 本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
- 参考スコア(独自算出の注目度): 55.189113121465816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long-tailed multi-label visual recognition poses a significant challenge, as images typically contain multiple labels with highly imbalanced class distributions, leading to biased models that favor head classes while underperforming on tail classes. Recent efforts have leveraged pre-trained vision-language models, such as CLIP, alongside long-tailed learning techniques to exploit rich visual-textual priors for improved performance. However, existing methods often derive semantic inter-class relationships directly from imbalanced datasets, resulting in unreliable correlations for tail classes due to data scarcity. Moreover, CLIP's zero-shot paradigm is optimized for single-label image-text matching, making it suboptimal for multi-label tasks. To address these issues, we propose the correlation adaptation prompt network (CAPNET), a novel end-to-end framework that explicitly models label correlations from CLIP's textual encoder. The framework incorporates a graph convolutional network for label-aware propagation and learnable soft prompts for refined embeddings. It utilizes a distribution-balanced Focal loss with class-aware re-weighting for optimized training under imbalance. Moreover, it improves generalization through test-time ensembling and realigns visual-textual modalities using parameter-efficient fine-tuning to avert overfitting on tail classes without compromising head class performance. Extensive experiments and ablation studies on benchmarks including VOC-LT, COCO-LT, and NUS-WIDE demonstrate that CAPNET achieves substantial improvements over state-of-the-art methods, validating its effectiveness for real-world long-tailed multi-label visual recognition.
- Abstract(参考訳): 画像には通常、高度に不均衡なクラス分布を持つ複数のラベルが含まれており、尾のクラスで過小評価されながらヘッドクラスを好むバイアスのあるモデルに繋がるため、長い尾のマルチラベルの視覚認識は重大な課題となる。
近年の取り組みでは、CLIPなどの事前学習された視覚言語モデルと、長い尾の学習技術を活用して、リッチな視覚テキストの事前利用によるパフォーマンス向上を実現している。
しかし、既存の手法は、しばしば不均衡なデータセットから直接クラス間のセマンティックな関係を導き出すため、データ不足によるテールクラスの信頼性の低い相関が生じる。
さらに、CLIPのゼロショットパラダイムは、シングルラベルの画像テキストマッチングに最適化されており、マルチラベルタスクに準最適である。
これらの問題に対処するために,CLIPのテキストエンコーダからラベル相関を明示的にモデル化する新しいエンドツーエンドフレームワークである相関適応プロンプトネットワーク(CAPNET)を提案する。
このフレームワークは、ラベル認識伝播のためのグラフ畳み込みネットワークと、洗練された埋め込みのための学習可能なソフトプロンプトを備えている。
分散バランスの取れたFocal損失とクラス認識の再重み付けを利用して、不均衡下でのトレーニングを最適化する。
さらに、テスト時間アンサンブルによる一般化を改善し、パラメータ効率の良い微調整により、ヘッドクラスの性能を損なうことなく、テールクラスのオーバーフィットを回避する。
VOC-LT、COCO-LT、NAS-WIDEなどのベンチマークに関する大規模な実験とアブレーション研究により、CAPNETは最先端の手法よりも大幅に改善され、実世界の長い尾を持つ複数ラベルの視覚認識の有効性が検証された。
関連論文リスト
- Vision Large Language Models Are Good Noise Handlers in Engagement Analysis [54.397912827957164]
本稿では,VLM(Vision Large Language Models)を利用したアノテーションの洗練とトレーニングプロセスの指導を行うフレームワークを提案する。
本フレームワークでは,行動手がかりを抽出し,データを高信頼性サブセットと低信頼性サブセットに分割する。
改良された高信頼性サブセットで訓練された古典型コンピュータビジョンモデルは,カリキュラム戦略により強化され,改善されたことを示す。
論文 参考訳(メタデータ) (2025-11-18T18:50:26Z) - No Labels Needed: Zero-Shot Image Classification with Collaborative Self-Learning [0.0]
視覚言語モデル(VLM)と、事前学習された視覚モデルを用いた伝達学習は、この問題に対処するための有望な手法として現れる。
本稿では,VLMと事前学習した視覚モデルを組み合わせたゼロショット画像分類フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T12:54:52Z) - Semantic-guided Fine-tuning of Foundation Model for Long-tailed Visual Recognition [38.74388860692423]
長期視覚認識のための基礎モデルのセマンティック誘導微調整法(セージ)を提案する。
クラス記述をセマンティックガイダンスとして統合したSG-Adapterを導入し,ビジュアルエンコーダの微調整を指導する。
ベンチマークデータセットの実験は、長期学習におけるパフォーマンス向上における提案されたSageの有効性を示す。
論文 参考訳(メタデータ) (2025-07-17T05:47:19Z) - RAHNet: Retrieval Augmented Hybrid Network for Long-tailed Graph
Classification [10.806893809269074]
本稿では,ロバストな特徴抽出器と非バイアスな分類器を共同で学習するRAHNet(Retrieval Augmented Hybrid Network)を提案する。
特徴抽出学習の段階において,各クラスにおけるクラス内多様性を直接強化する関係グラフを探索するグラフ検索モジュールを開発する。
また、分類表現を得るために、カテゴリー中心の教師付きコントラスト損失を革新的に最適化する。
論文 参考訳(メタデータ) (2023-08-04T14:06:44Z) - Constructing Balance from Imbalance for Long-tailed Image Recognition [50.6210415377178]
多数派(頭)クラスと少数派(尾)クラスの不均衡は、データ駆動のディープニューラルネットワークを著しく歪ませる。
従来の手法では、データ分散、特徴空間、モデル設計の観点からデータ不均衡に対処していた。
ラベル空間を段階的に調整し,ヘッドクラスとテールクラスを分割することで,簡潔なパラダイムを提案する。
提案モデルでは,特徴評価手法も提供し,長期的特徴学習の道を開く。
論文 参考訳(メタデータ) (2022-08-04T10:22:24Z) - A Simple Long-Tailed Recognition Baseline via Vision-Language Model [92.2866546058082]
視覚の世界は自然にオープンクラスの長い尾の分布を示しており、現代の視覚システムには大きな課題をもたらしている。
視覚認識のための新しい経路におけるコントラスト言語事前学習の最近の進歩
我々は、長い尾の認識にコントラッシブな視覚言語モデルを活用するために、BALLADを提案する。
論文 参考訳(メタデータ) (2021-11-29T17:49:24Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。