論文の概要: Semantic-Aware Representation Learning for Multi-label Image Classification
- arxiv url: http://arxiv.org/abs/2507.14918v1
- Date: Sun, 20 Jul 2025 11:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.124604
- Title: Semantic-Aware Representation Learning for Multi-label Image Classification
- Title(参考訳): 多ラベル画像分類のための意味認識表現学習
- Authors: Ren-Dong Xie, Zhi-Fen He, Bo Li, Bin Liu, Jin-Yan Hu,
- Abstract要約: 本稿では,多ラベル画像分類のためのセマンティック・アウェア表現学習(SARL)を提案する。
まず、ラベル意味関連特徴学習モジュールを用いて意味関連特徴を抽出する。
第2に、セマンティックに整合した画像表現を得るために、最適輸送に基づくアテンション機構が設計されている。
- 参考スコア(独自算出の注目度): 6.444512435220748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label image classification, an important research area in computer vision, focuses on identifying multiple labels or concepts within an image. Existing approaches often employ attention mechanisms or graph convolutional networks (GCNs) to learn image representation. However, this representation may contain noise and may not locate objects precisely. Therefore, this paper proposes a Semantic-Aware Representation Learning (SARL) for multi-label image classification. First, a label semantic-related feature learning module is utilized to extract semantic-related features. Then, an optimal transport-based attention mechanism is designed to obtain semantically aligned image representation. Finally, a regional score aggregation strategy is used for multi-label prediction. Experimental results on two benchmark datasets, PASCAL VOC 2007 and MS-COCO, demonstrate the superiority of SARL over existing methods.
- Abstract(参考訳): コンピュータビジョンにおける重要な研究領域であるマルチラベル画像分類は、画像内の複数のラベルや概念を特定することに焦点を当てている。
既存のアプローチでは、画像表現を学ぶために注意機構やグラフ畳み込みネットワーク(GCN)を用いることが多い。
しかし、この表現はノイズを含み、オブジェクトを正確に見つけることはできない。
そこで本稿では,マルチラベル画像分類のためのセマンティック・アウェア表現学習(SARL)を提案する。
まず、ラベル意味関連特徴学習モジュールを用いて意味関連特徴を抽出する。
次に、セマンティックに整合した画像表現を得るために、最適な輸送ベースアテンション機構を設計する。
最後に、多ラベル予測に地域スコアアグリゲーション戦略を用いる。
PASCAL VOC 2007とMS-COCOの2つのベンチマークデータセットによる実験結果から,既存の手法よりもSARLの方が優れていることが示された。
関連論文リスト
- Semantic-guided Representation Learning for Multi-Label Recognition [13.046479112800608]
マルチラベル認識(MLR)では、画像内の各データインスタンスに複数のラベルを割り当てる。
近年のビジョンと言語事前学習法は、ゼロショットMLRタスクの処理において大きな進歩を遂げている。
本研究では,セマンティック誘導型表現学習手法(SigRL)を導入し,モデルが効果的な視覚的およびテキスト的表現を学習できるようにする。
論文 参考訳(メタデータ) (2025-04-04T08:15:08Z) - Multi-Label Self-Supervised Learning with Scene Images [21.549234013998255]
本稿では,シーン/マルチラベル画像SSLを多ラベル分類問題として扱うことで,画質の表現を学習可能であることを示す。
提案手法はMulti-Label Self-supervised Learning (MLS) と呼ばれる。
論文 参考訳(メタデータ) (2023-08-07T04:04:22Z) - PatchCT: Aligning Patch Set and Label Set with Conditional Transport for
Multi-Label Image Classification [48.929583521641526]
マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。
本稿では,このギャップを埋める条件輸送理論を紹介する。
複数ラベルの分類をCT問題として定式化することで,画像とラベルの相互作用を効率的に活用できることがわかった。
論文 参考訳(メタデータ) (2023-07-18T08:37:37Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Multi-layered Semantic Representation Network for Multi-label Image
Classification [8.17894017454724]
マルチラベル画像分類(MLIC)は,複数の可能なラベルを画像に割り当てることを目的とした,基本的で実践的な課題である。
近年,多くのディープ畳み込みニューラルネットワーク(CNN)に基づく手法が提案され,ラベル相関がモデル化されている。
本稿では,ラベル相関のモデル化と意味表現の学習を改善することにより,この研究の方向性を推し進める。
論文 参考訳(メタデータ) (2021-06-22T08:04:22Z) - Semantic Diversity Learning for Zero-Shot Multi-label Classification [14.480713752871523]
本研究では,マルチラベルゼロショット学習のためのエンドツーエンドモデルトレーニングを提案する。
本研究では,主埋め込みベクトルを持つ埋め込み行列を用いて,調整された損失関数を用いて訓練する。
さらに, 学習中, 組込み行列の多様性を促進するために, 高い意味的多様性を示す損失関数画像サンプルの重み付けを提案する。
論文 参考訳(メタデータ) (2021-05-12T19:39:07Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z) - Zero-Shot Recognition through Image-Guided Semantic Classification [9.291055558504588]
ゼロショット学習(ZSL)のための新しい埋め込み型フレームワークを提案する。
複数ラベル分類のための2値関係法により,画像と意味分類器のマッピングを逆学習する手法を提案する。
IGSCは概念的には単純であり、分類のための既存のディープアーキテクチャをわずかに拡張することで実現可能である。
論文 参考訳(メタデータ) (2020-07-23T06:22:40Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Hierarchical Image Classification using Entailment Cone Embeddings [68.82490011036263]
まずラベル階層の知識を任意のCNNベースの分類器に注入する。
画像からの視覚的セマンティクスと組み合わせた外部セマンティクス情報の利用が全体的な性能を高めることを実証的に示す。
論文 参考訳(メタデータ) (2020-04-02T10:22:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。