論文の概要: DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations
- arxiv url: http://arxiv.org/abs/2308.01890v1
- Date: Thu, 3 Aug 2023 17:33:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 13:08:46.805014
- Title: DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations
- Title(参考訳): DualCoOp++: アノテーションを限定したマルチラベル認識への高速かつ効果的な適応
- Authors: Ping Hu, Ximeng Sun, Stan Sclaroff, and Kate Saenko
- Abstract要約: 低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
- 参考スコア(独自算出の注目度): 69.46540583073656
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-label image recognition in the low-label regime is a task of great
challenge and practical significance. Previous works have focused on learning
the alignment between textual and visual spaces to compensate for limited image
labels, yet may suffer from reduced accuracy due to the scarcity of
high-quality multi-label annotations. In this research, we leverage the
powerful alignment between textual and visual features pretrained with millions
of auxiliary image-text pairs. We introduce an efficient and effective
framework called Evidence-guided Dual Context Optimization (DualCoOp++), which
serves as a unified approach for addressing partial-label and zero-shot
multi-label recognition. In DualCoOp++ we separately encode evidential,
positive, and negative contexts for target classes as parametric components of
the linguistic input (i.e., prompts). The evidential context aims to discover
all the related visual content for the target class, and serves as guidance to
aggregate positive and negative contexts from the spatial domain of the image,
enabling better distinguishment between similar categories. Additionally, we
introduce a Winner-Take-All module that promotes inter-class interaction during
training, while avoiding the need for extra parameters and costs. As DualCoOp++
imposes minimal additional learnable overhead on the pretrained vision-language
framework, it enables rapid adaptation to multi-label recognition tasks with
limited annotations and even unseen classes. Experiments on standard
multi-label recognition benchmarks across two challenging low-label settings
demonstrate the superior performance of our approach compared to
state-of-the-art methods.
- Abstract(参考訳): 低音域におけるマルチラベル画像認識は,課題と実用的意義の課題である。
以前の作品は、限られた画像ラベルを補うためにテキスト空間と視覚空間のアライメントを学ぶことに重点を置いていたが、高品質のマルチラベルアノテーションが不足しているため、精度が低下する可能性がある。
本研究では,何百万もの補助画像-テキストペアで事前学習したテキスト特徴と視覚特徴の強力なアライメントを利用する。
我々は、部分ラベルとゼロショットのマルチラベル認識に対応するための統一的なアプローチとして、エビデンス主導のデュアルコンテキスト最適化(dualcoop++)と呼ばれる効率的かつ効果的なフレームワークを導入する。
dualcoop++では、言語入力(すなわちプロンプト)のパラメトリックコンポーネントとして、ターゲットクラスの明示的、肯定的、否定的なコンテキストを別々にエンコードします。
立証コンテキストは、対象クラスに関連するすべての視覚コンテンツを発見し、画像の空間領域からポジティブなコンテキストとネガティブなコンテキストを集約し、類似したカテゴリの識別を改善するためのガイダンスとして機能する。
さらに,学習中にクラス間インタラクションを促進するとともに,余分なパラメータやコストを回避できるウィナー・テイク・オールモジュールを導入する。
DualCoOp++は、事前訓練された視覚言語フレームワークに最小限の学習オーバーヘッドを課しているため、アノテーションや目に見えないクラスを限定したマルチラベル認識タスクへの迅速な適応を可能にしている。
2つの挑戦的な低ラベル設定における標準マルチラベル認識ベンチマークの実験は、最先端手法よりも優れた性能を示している。
関連論文リスト
- Text-Region Matching for Multi-Label Image Recognition with Missing Labels [5.095488730708477]
TRM-MLは意味のあるクロスモーダルマッチングを強化する新しい手法である。
カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知のラベルを推定するカテゴリプロトタイプを提案する。
提案手法は最先端の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-26T05:29:24Z) - Text as Image: Learning Transferable Adapter for Multi-Label
Classification [13.11583340598517]
マルチラベル命令追従テキスト生成に大規模言語モデルを用いるための効果的なアプローチを提案する。
このように、ビジュアルラベル認識のための完全に自動化されたパイプラインは、手動のデータに頼ることなく開発される。
論文 参考訳(メタデータ) (2023-12-07T09:22:20Z) - Semantic Contrastive Bootstrapping for Single-positive Multi-label
Recognition [36.3636416735057]
本研究では,意味的コントラスト型ブートストラップ法(Scob)を用いて,オブジェクト間の関係を徐々に回復する手法を提案する。
次に、アイコン的オブジェクトレベルの表現を抽出する再帰的セマンティックマスク変換器を提案する。
大規模な実験結果から,提案手法が最先端のモデルを超えていることが示唆された。
論文 参考訳(メタデータ) (2023-07-15T01:59:53Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-06-20T02:36:54Z) - FILIP: Fine-grained Interactive Language-Image Pre-Training [106.19474076935363]
微粒な対話型言語-画像事前学習は、モーダルな遅延相互作用機構を通じてより細粒度なアライメントを実現する。
我々は,FILIP300Mと呼ばれる大規模画像テキストペアデータセットを構築し,事前学習を行う。
実験により、FILIPは複数の下流視覚言語タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2021-11-09T17:15:38Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。