論文の概要: DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations
- arxiv url: http://arxiv.org/abs/2206.09541v1
- Date: Mon, 20 Jun 2022 02:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 16:24:46.259077
- Title: DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited
Annotations
- Title(参考訳): DualCoOp: 限定アノテーションによるマルチラベル認識への高速適応
- Authors: Ximeng Sun, Ping Hu and Kate Saenko
- Abstract要約: 本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。
DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
- 参考スコア(独自算出の注目度): 61.41339201200135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solving multi-label recognition (MLR) for images in the low-label regime is a
challenging task with many real-world applications. Recent work learns an
alignment between textual and visual spaces to compensate for insufficient
image labels, but loses accuracy because of the limited amount of available MLR
annotations. In this work, we utilize the strong alignment of textual and
visual features pretrained with millions of auxiliary image-text pairs and
propose Dual Context Optimization (DualCoOp) as a unified framework for
partial-label MLR and zero-shot MLR. DualCoOp encodes positive and negative
contexts with class names as part of the linguistic input (i.e. prompts). Since
DualCoOp only introduces a very light learnable overhead upon the pretrained
vision-language framework, it can quickly adapt to multi-label recognition
tasks that have limited annotations and even unseen classes. Experiments on
standard multi-label recognition benchmarks across two challenging low-label
settings demonstrate the advantages of our approach over state-of-the-art
methods.
- Abstract(参考訳): 低ラベル方式で画像に対してMLR(multi-label recognition)を解くことは、多くの現実世界のアプリケーションにおいて難しい課題である。
近年の研究では、画像ラベルの不足を補うためにテキスト空間と視覚空間のアライメントを学習しているが、利用可能なMLRアノテーションの量が限られているため精度が低下している。
本研究では、数百万の補助画像テキストペアで事前訓練されたテキストと視覚の強いアライメントを活用し、部分ラベルMLRとゼロショットMLRの統一フレームワークとしてデュアルコンテキスト最適化(DualCoOp)を提案する。
DualCoOpは、言語入力(即ちプロンプト)の一部として、クラス名と正および負のコンテキストを符号化する。
DualCoOpは、事前訓練されたビジョン言語フレームワークで非常に学習可能なオーバーヘッドしか導入しないため、アノテーションや目に見えないクラスが制限されたマルチラベル認識タスクに迅速に適応できる。
2つの挑戦的な低ラベル設定における標準マルチラベル認識ベンチマークの実験は、最先端手法に対するアプローチの利点を示している。
関連論文リスト
- Text-Region Matching for Multi-Label Image Recognition with Missing Labels [5.095488730708477]
TRM-MLは意味のあるクロスモーダルマッチングを強化する新しい手法である。
カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知のラベルを推定するカテゴリプロトタイプを提案する。
提案手法は最先端の手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-26T05:29:24Z) - Multi-Label Self-Supervised Learning with Scene Images [21.549234013998255]
本稿では,シーン/マルチラベル画像SSLを多ラベル分類問題として扱うことで,画質の表現を学習可能であることを示す。
提案手法はMulti-Label Self-supervised Learning (MLS) と呼ばれる。
論文 参考訳(メタデータ) (2023-08-07T04:04:22Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - CODER: Coupled Diversity-Sensitive Momentum Contrastive Learning for
Image-Text Retrieval [108.48540976175457]
クロスモーダル表現を改善するために,共用ダイバーシティ・センシティブ・モーメント・コンストラシティブ・ラーニング(CODER)を提案する。
両モードの動的辞書を導入し、画像テキストペアのスケールを拡大し、適応的な負のペア重み付けにより多様性に敏感性を実現する。
MSCOCOとFlicker30Kという2つの人気のあるベンチマークで実施された実験は、CODERが最先端のアプローチを著しく上回っていることを証明している。
論文 参考訳(メタデータ) (2022-08-21T08:37:50Z) - Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on
Aligned Visual-Textual Features [14.334304670606633]
本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。
NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2022-08-19T22:45:07Z) - Learning Self-Supervised Low-Rank Network for Single-Stage Weakly and
Semi-Supervised Semantic Segmentation [119.009033745244]
本稿では,単一段階弱教師付きセマンティックセマンティックセマンティックセマンティクス(WSSS)と半教師付きセマンティクスセマンティクスセマンティクス(SSSS)のための自己教師付き低ランクネットワーク(SLRNet)を提案する。
SLRNetは、画像の異なるビューから複数の注意深いLR表現を同時に予測し、正確な擬似ラベルを学習する。
Pascal VOC 2012、COCO、L2IDデータセットの実験では、SLRNetは最先端のWSSSメソッドとSSSSメソッドの両方で、さまざまな設定で優れています。
論文 参考訳(メタデータ) (2022-03-19T09:19:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。