Fugu-MT 論文翻訳(概要): Text-Region Matching for Multi-Label Image Recognition with Missing Labels

論文の概要: Text-Region Matching for Multi-Label Image Recognition with Missing Labels

arxiv url: http://arxiv.org/abs/2407.18520v2
Date: Wed, 7 Aug 2024 14:33:14 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-08 17:40:15.888702
Title: Text-Region Matching for Multi-Label Image Recognition with Missing Labels
Title（参考訳）: 欠落ラベルを用いた複数ラベル画像認識のためのテキストレギュレーションマッチング
Authors: Leilei Ma, Hongxing Xie, Lei Wang, Yanping Fu, Dengdi Sun, Haifeng Zhao,
Abstract要約: textbfText-textbfRegion textbfMatching for optimize textbfMulti-textbfLabel prompt tuning,すなわちTRM-MLを提案する。既存の手法と比較して、画像やピクセル全体ではなくカテゴリ認識領域の情報を探究することを提唱する。また,テキストと視覚のセマンティックギャップを狭めるために,マルチモーダルコントラスト学習を導入する。
参考スコア（独自算出の注目度）: 5.095488730708477
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, large-scale visual language pre-trained (VLP) models have demonstrated impressive performance across various downstream tasks. Motivated by these advancements, pioneering efforts have emerged in multi-label image recognition with missing labels, leveraging VLP prompt-tuning technology. However, they usually cannot match text and vision features well, due to complicated semantics gaps and missing labels in a multi-label image. To tackle this challenge, we propose \textbf{T}ext-\textbf{R}egion \textbf{M}atching for optimizing \textbf{M}ulti-\textbf{L}abel prompt tuning, namely TRM-ML, a novel method for enhancing meaningful cross-modal matching. Compared to existing methods, we advocate exploring the information of category-aware regions rather than the entire image or pixels, which contributes to bridging the semantic gap between textual and visual representations in a one-to-one matching manner. Concurrently, we further introduce multimodal contrastive learning to narrow the semantic gap between textual and visual modalities and establish intra-class and inter-class relationships. Additionally, to deal with missing labels, we propose a multimodal category prototype that leverages intra- and inter-category semantic relationships to estimate unknown labels, facilitating pseudo-label generation. Extensive experiments on the MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, and CUB-200-211 benchmark datasets demonstrate that our proposed framework outperforms the state-of-the-art methods by a significant margin. Our code is available here\href{https://github.com/yu-gi-oh-leilei/TRM-ML}{\raisebox{-1pt}{\faGithub}}.
Abstract（参考訳）: 近年,大規模ビジュアル言語事前訓練(VLP)モデルでは,下流タスクにまたがる顕著なパフォーマンスが示されている。これらの進歩に触発されて、VLPプロンプトチューニング技術を活用して、ラベルを欠いたマルチラベル画像認識において先駆的な取り組みが生まれている。しかし、複雑なセマンティクスのギャップやマルチラベル画像のラベルの欠如のため、テキストや視覚機能とよく一致しないことが多い。この課題に対処するために, 意味のあるクロスモーダルマッチングを向上するための新しい手法である TRM-ML という, 即時チューニングを最適化するための \textbf{T}ext-\textbf{R}egion \textbf{M}atching を提案する。既存の手法と比較して,画像や画素全体ではなくカテゴリ認識領域の情報を探究することを提唱し,テキストと視覚のセマンティックなギャップを1対1で埋めることに寄与する。同時に,テキストと視覚のセマンティックなギャップを狭め,クラス内およびクラス間関係を確立するために,マルチモーダルコントラスト学習を導入する。また,ラベルの欠落に対処するために,カテゴリ内およびカテゴリ間セマンティックな関係を利用して未知ラベルを推定し,擬似ラベル生成を容易にするマルチモーダルカテゴリのプロトタイプを提案する。 MS-COCO, PASCAL VOC, Visual Genome, NUS-WIDE, CUB-200-211ベンチマークデータセットの大規模な実験により, 提案したフレームワークは最先端の手法よりも大幅に優れていることが示された。私たちのコードはここで利用可能です。

関連論文リスト

Semantic-guided Representation Learning for Multi-Label Recognition [13.046479112800608]
マルチラベル認識(MLR)では、画像内の各データインスタンスに複数のラベルを割り当てる。近年のビジョンと言語事前学習法は、ゼロショットMLRタスクの処理において大きな進歩を遂げている。本研究では,セマンティック誘導型表現学習手法(SigRL)を導入し,モデルが効果的な視覚的およびテキスト的表現を学習できるようにする。
論文参考訳（メタデータ） (2025-04-04T08:15:08Z)
ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-12T13:28:46Z)
Context-Based Semantic-Aware Alignment for Semi-Supervised Multi-Label Learning [37.13424985128905]
大規模な画像テキストペアで事前訓練された視覚言語モデルは、SSMLL設定下でのラベル付きデータ制限の課題を軽減することができる。 SSMLL問題を解くために,文脈に基づく意味認識アライメント手法を提案する。
論文参考訳（メタデータ） (2024-12-25T09:06:54Z)
Multimodal LLM Enhanced Cross-lingual Cross-modal Retrieval [40.83470534691711]
言語間クロスモーダル検索(CCR)は、非英語クエリに基づいて視覚的に関連のあるコンテンツを検索することを目的としている。 1つの一般的なアプローチは、擬似並列データペアを作成するために機械翻訳(MT)を利用することである。視覚表現と非英語表現の整合性を改善するため,多モーダル大言語モデル(MLLM)を組み込んだ新しいソリューションLE CCRを提案する。
論文参考訳（メタデータ） (2024-09-30T05:25:51Z)
TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。 VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文参考訳（メタデータ） (2024-05-11T06:11:42Z)
PVLR: Prompt-driven Visual-Linguistic Representation Learning for Multi-Label Image Recognition [47.11517266162346]
本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
論文参考訳（メタデータ） (2024-01-31T14:39:11Z)
DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。 Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文参考訳（メタデータ） (2023-08-03T17:33:20Z)
Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文参考訳（メタデータ） (2023-03-30T06:02:40Z)
Revisiting Multimodal Representation in Contrastive Learning: From Patch and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文参考訳（メタデータ） (2023-03-27T00:58:39Z)
Open Vocabulary Multi-Label Classification with Dual-Modal Decoder on Aligned Visual-Textual Features [14.334304670606633]
本稿では,視覚的特徴とテキスト的特徴の整合性を備えた2次元デコーダ (DM-decoder) を含む新しいアルゴリズム,Aligned Dual MoDality ClaSsifier (ADDS) を提案する。 NUS-WIDE, ImageNet-1k, ImageNet-21k, MS-COCO など,いくつかの標準ベンチマークで実施された大規模な実験により,提案手法が従来の手法よりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2022-08-19T22:45:07Z)
Open-Vocabulary Multi-Label Classification via Multi-modal Knowledge Transfer [55.885555581039895]
マルチラベルゼロショット学習(ML-ZSL)は、事前訓練されたテキストラベル埋め込みによる知識の伝達に焦点を当てている。マルチラベル分類のためのMKT(Multimodal Knowledge Transfer)と呼ばれる新しいオープン語彙フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-05T08:32:18Z)
DualCoOp: Fast Adaptation to Multi-Label Recognition with Limited Annotations [61.41339201200135]
本稿では,部分ラベル MLR とゼロショット MLR の統一フレームワークとして,Dual Context Optimization (DualCoOp) を提案する。 DualCoOpは、事前訓練された視覚言語フレームワークに非常に軽い学習可能なオーバーヘッドしか導入しないため、マルチラベル認識タスクに迅速に適応できる。
論文参考訳（メタデータ） (2022-06-20T02:36:54Z)
Dual-Perspective Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文参考訳（メタデータ） (2022-05-26T00:33:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。