論文の概要: PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification
- arxiv url: http://arxiv.org/abs/2307.09066v2
- Date: Fri, 18 Aug 2023 11:53:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 22:56:06.214702
- Title: PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification
- Title(参考訳): PatchCT:マルチラベル画像分類のための条件付きトランスポート付きパッチセットとラベルセットのアライメント
- Authors: Miaoge Li, Dongsheng Wang, Xinyang Liu, Zequn Zeng, Ruiying Lu, Bo
Chen, Mingyuan Zhou
- Abstract要約: マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,このギャップを埋める条件輸送理論を紹介する。
複数ラベルの分類をCT問題として定式化することで,画像とラベルの相互作用を効率的に活用できることがわかった。
- 参考スコア(独自算出の注目度): 48.929583521641526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label image classification is a prediction task that aims to identify
more than one label from a given image. This paper considers the semantic
consistency of the latent space between the visual patch and linguistic label
domains and introduces the conditional transport (CT) theory to bridge the
acknowledged gap. While recent cross-modal attention-based studies have
attempted to align such two representations and achieved impressive
performance, they required carefully-designed alignment modules and extra
complex operations in the attention computation. We find that by formulating
the multi-label classification as a CT problem, we can exploit the interactions
between the image and label efficiently by minimizing the bidirectional CT
cost. Specifically, after feeding the images and textual labels into the
modality-specific encoders, we view each image as a mixture of patch embeddings
and a mixture of label embeddings, which capture the local region features and
the class prototypes, respectively. CT is then employed to learn and align
those two semantic sets by defining the forward and backward navigators.
Importantly, the defined navigators in CT distance model the similarities
between patches and labels, which provides an interpretable tool to visualize
the learned prototypes. Extensive experiments on three public image benchmarks
show that the proposed model consistently outperforms the previous methods.
- Abstract(参考訳): マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,視覚パッチと言語ラベルドメイン間の潜時空間のセマンティック一貫性について考察し,そのギャップを埋めるために条件伝達(CT)理論を導入する。
最近のクロスモーダルアテンションに基づく研究は、このような2つの表現の整列を試み、優れた性能を達成したが、注意計算には慎重に設計されたアライメントモジュールと追加の複雑な演算が必要であった。
我々は,複数ラベルの分類をCT問題として定式化することにより,画像とラベルの相互作用を効率よく利用し,双方向CTコストを最小化できることを見出した。
具体的には、イメージとテキストラベルをモダリティ固有のエンコーダに供給した後、各イメージをパッチ埋め込みとラベル埋め込みの混合物として捉え、それぞれ局所的な特徴とクラスプロトタイプをキャプチャする。
CTは、前方と後方のナビゲータを定義することによって、これらの2つのセマンティックセットを学習し、調整するために使用される。
重要なことに、CT距離で定義されたナビゲータはパッチとラベルの類似性をモデル化し、学習したプロトタイプを視覚化するための解釈可能なツールを提供する。
3つの公開画像ベンチマークによる大規模な実験により,提案手法が従来手法より一貫して優れていることが示された。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Semantic-Aware Graph Matching Mechanism for Multi-Label Image
Recognition [21.36538164675385]
マルチラベル画像認識は、画像に存在するラベルの集合を予測することを目的としている。
本稿では、各画像をインスタンスの袋として扱い、複数ラベル画像認識のタスクをインスタンス-ラベルマッチング選択問題として定式化する。
マルチラベル画像認識(ML-SGM)のための革新的なセマンティック対応グラフマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-21T23:48:01Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels [70.45813147115126]
部分ラベル付きマルチラベル画像認識(MLR-PL)は、アノテーションのコストを大幅に削減し、大規模なMLRを促進する。
それぞれの画像と異なる画像の間に強い意味的相関が存在することがわかった。
これらの相関関係は、未知のラベルを取得するために、既知のラベルが持つ知識を転送するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T08:37:38Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - Inferring Prototypes for Multi-Label Few-Shot Image Classification with
Word Vector Guided Attention [45.6809084493491]
ML-FSIC (Multi-label few-shot Image Classification) は、画像に記述ラベルを割り当てるタスクである。
本稿では,ラベルの意味に関する事前知識の形式として,単語埋め込みを提案する。
我々のモデルは、モデルパラメータを微調整することなく、未確認ラベルのプロトタイプを推測することができる。
論文 参考訳(メタデータ) (2021-12-02T07:59:11Z) - Reconstruction Regularized Deep Metric Learning for Multi-label Image
Classification [39.055689258395624]
本稿では,多ラベル画像分類問題に対処する新しい深度距離学習法を提案する。
私たちのモデルはエンドツーエンドでトレーニングできます。
論文 参考訳(メタデータ) (2020-07-27T13:28:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。