Fugu-MT 論文翻訳(概要): PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image Classification

論文の概要: PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image Classification

arxiv url: http://arxiv.org/abs/2307.09066v1
Date: Tue, 18 Jul 2023 08:37:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-19 15:43:44.394461
Title: PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image Classification
Title（参考訳）: PatchCT:マルチラベル画像分類のための条件付きトランスポート付きパッチセットとラベルセットのアライメント
Authors: Miaoge Li, Dongsheng Wang, Xinyang Liu, Zequn Zeng, Ruiying Lu, Bo Chen, Mingyuan Zhou
Abstract要約: マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。本稿では,認識ギャップを埋めるために条件伝達(CT)理論を導入する。マルチラベル分類をCT問題として定式化することにより,画像とラベルの相互作用を効率的に活用できることが判明した。
参考スコア（独自算出の注目度）: 45.115551317021975
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-label image classification is a prediction task that aims to identify more than one label from a given image. This paper considers the semantic consistency of the latent space between the visual patch and linguistic label domains and introduces the conditional transport (CT) theory to bridge the acknowledged gap. While recent cross-modal attention-based studies have attempted to align such two representations and achieved impressive performance, they required carefully-designed alignment modules and extra complex operations in the attention computation. We find that by formulating the multi-label classification as a CT problem, we can exploit the interactions between the image and label efficiently by minimizing the bidirectional CT cost. Specifically, after feeding the images and textual labels into the modality-specific encoders, we view each image as a mixture of patch embeddings and a mixture of label embeddings, which capture the local region features and the class prototypes, respectively. CT is then employed to learn and align those two semantic sets by defining the forward and backward navigators. Importantly, the defined navigators in CT distance model the similarities between patches and labels, which provides an interpretable tool to visualize the learned prototypes. Extensive experiments on three public image benchmarks show that the proposed model consistently outperforms the previous methods. Our code is available at https://github.com/keepgoingjkg/PatchCT.
Abstract（参考訳）: マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。本稿では,視覚パッチと言語ラベルドメイン間の潜時空間のセマンティック一貫性について考察し,そのギャップを埋めるために条件伝達(CT)理論を導入する。最近のクロスモーダルアテンションに基づく研究は、このような2つの表現の整列を試み、優れた性能を達成したが、注意計算には慎重に設計されたアライメントモジュールと追加の複雑な演算が必要であった。我々は,複数ラベルの分類をCT問題として定式化することにより,画像とラベルの相互作用を効率よく利用し,双方向CTコストを最小化できることを見出した。具体的には、イメージとテキストラベルをモダリティ固有のエンコーダに供給した後、各イメージをパッチ埋め込みとラベル埋め込みの混合物として捉え、それぞれ局所的な特徴とクラスプロトタイプをキャプチャする。 CTは、前方と後方のナビゲータを定義することによって、これらの2つのセマンティックセットを学習し、調整するために使用される。重要なことに、CT距離で定義されたナビゲータはパッチとラベルの類似性をモデル化し、学習したプロトタイプを視覚化するための解釈可能なツールを提供する。 3つの公開画像ベンチマークによる大規模な実験により,提案手法が従来手法より一貫して優れていることが示された。私たちのコードはhttps://github.com/keepgoingjkg/PatchCTで利用可能です。

関連論文リスト

Semantic-Aware Representation Learning for Multi-label Image Classification [6.444512435220748]
本稿では,多ラベル画像分類のためのセマンティック・アウェア表現学習(SARL)を提案する。まず、ラベル意味関連特徴学習モジュールを用いて意味関連特徴を抽出する。第2に、セマンティックに整合した画像表現を得るために、最適輸送に基づくアテンション機構が設計されている。
論文参考訳（メタデータ） (2025-07-20T11:15:24Z)
Modeling Multi-modal Cross-interaction for Multi-label Few-shot Image Classification Based on Local Feature Selection [55.144394711196924]
マルチラベル設定の重要な特徴は、イメージがしばしば複数のラベルを持つことである。本稿では,ラベルのプロトタイプを段階的に改良する戦略を提案する。 COCO, PASCAL VOC, NUS-WIDE, iMaterialist による実験により, このモデルにより最先端のモデルが大幅に改善されることが示された。
論文参考訳（メタデータ） (2024-12-18T11:10:18Z)
Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文参考訳（メタデータ） (2024-03-02T10:03:21Z)
Semantic-Aware Graph Matching Mechanism for Multi-Label Image Recognition [21.36538164675385]
マルチラベル画像認識は、画像に存在するラベルの集合を予測することを目的としている。本稿では、各画像をインスタンスの袋として扱い、複数ラベル画像認識のタスクをインスタンス-ラベルマッチング選択問題として定式化する。マルチラベル画像認識(ML-SGM)のための革新的なセマンティック対応グラフマッチングフレームワークを提案する。
論文参考訳（メタデータ） (2023-04-21T23:48:01Z)
Dual-Perspective Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文参考訳（メタデータ） (2022-05-26T00:33:44Z)
Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels [70.45813147115126]
部分ラベル付きマルチラベル画像認識(MLR-PL)は、アノテーションのコストを大幅に削減し、大規模なMLRを促進する。それぞれの画像と異なる画像の間に強い意味的相関が存在することがわかった。これらの相関関係は、未知のラベルを取得するために、既知のラベルが持つ知識を転送するのに役立ちます。
論文参考訳（メタデータ） (2022-05-23T08:37:38Z)
Semantic-Aware Representation Blending for Multi-Label Image Recognition with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。 MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文参考訳（メタデータ） (2022-03-04T07:56:16Z)
Structured Semantic Transfer for Multi-Label Recognition with Partial Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。 Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文参考訳（メタデータ） (2021-12-21T02:15:01Z)
Inferring Prototypes for Multi-Label Few-Shot Image Classification with Word Vector Guided Attention [45.6809084493491]
ML-FSIC (Multi-label few-shot Image Classification) は、画像に記述ラベルを割り当てるタスクである。本稿では,ラベルの意味に関する事前知識の形式として,単語埋め込みを提案する。我々のモデルは、モデルパラメータを微調整することなく、未確認ラベルのプロトタイプを推測することができる。
論文参考訳（メタデータ） (2021-12-02T07:59:11Z)
Reconstruction Regularized Deep Metric Learning for Multi-label Image Classification [39.055689258395624]
本稿では,多ラベル画像分類問題に対処する新しい深度距離学習法を提案する。私たちのモデルはエンドツーエンドでトレーニングできます。
論文参考訳（メタデータ） (2020-07-27T13:28:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。