論文の概要: Semantic Representation and Dependency Learning for Multi-Label Image
Recognition
- arxiv url: http://arxiv.org/abs/2204.03795v1
- Date: Fri, 8 Apr 2022 00:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-11 13:12:20.171785
- Title: Semantic Representation and Dependency Learning for Multi-Label Image
Recognition
- Title(参考訳): マルチラベル画像認識のための意味表現と依存学習
- Authors: Tao Pu, Lixian Yuan, Hefeng Wu, Tianshui Chen, Ling Tian, Liang Lin
- Abstract要約: 本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
- 参考スコア(独自算出の注目度): 76.52120002993728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently many multi-label image recognition (MLR) works have made significant
progress by introducing pre-trained object detection models to generate lots of
proposals or utilizing statistical label co-occurrence enhance the correlation
among different categories. However, these works have some limitations: (1) the
effectiveness of the network significantly depends on pre-trained object
detection models that bring expensive and unaffordable computation; (2) the
network performance degrades when there exist occasional co-occurrence objects
in images, especially for the rare categories. To address these problems, we
propose a novel and effective semantic representation and dependency learning
(SRDL) framework to learn category-specific semantic representation for each
category and capture semantic dependency among all categories. Specifically, we
design a category-specific attentional regions (CAR) module to generate
channel/spatial-wise attention matrices to guide model to focus on
semantic-aware regions. We also design an object erasing (OE) module to
implicitly learn semantic dependency among categories by erasing semantic-aware
regions to regularize the network training. Extensive experiments and
comparisons on two popular MLR benchmark datasets (i.e., MS-COCO and Pascal VOC
2007) demonstrate the effectiveness of the proposed framework over current
state-of-the-art algorithms.
- Abstract(参考訳): 近年,多くのマルチラベル画像認識(MLR)研究が,事前学習対象検出モデルを導入して多くの提案を作成したり,統計ラベルの共起を利用して,カテゴリ間の相関性を高めるなど,大きな進歩を遂げている。
しかし, ネットワークの有効性は, 高価で不都合な計算をもたらす事前学習対象検出モデルに大きく依存する, 2) 画像に時折共起オブジェクトが存在する場合, 特に稀なカテゴリにおいてネットワーク性能は低下する, という制約がある。
これらの課題に対処するために,各カテゴリのカテゴリ固有のセマンティック表現を学習し,各カテゴリ間のセマンティック依存を捕捉する,新しく効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー特化注意領域(car)モジュールを設計し,チャネル/空間毎の注意行列を生成し,意味認識領域に着目したモデルを導出する。
また,ネットワークトレーニングを規則化する意味認識領域を消去することにより,カテゴリ間の意味依存を暗黙的に学習するオブジェクト消去(oe)モジュールを設計した。
MLRベンチマークデータセット(MS-COCOとPascal VOC 2007)の大規模な実験と比較は、現在の最先端アルゴリズムよりも提案されたフレームワークの有効性を示している。
関連論文リスト
- Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - DUET: Cross-modal Semantic Grounding for Contrastive Zero-shot Learning [37.48292304239107]
本稿では, DUET という変換器を用いたエンドツーエンドZSL手法を提案する。
画像からセマンティック属性を分離するモデルの能力を調べるために,モーダルなセマンティックグラウンドネットワークを開発した。
DUETは、しばしば最先端のパフォーマンスを達成することができ、そのコンポーネントは有効であり、予測は解釈可能である。
論文 参考訳(メタデータ) (2022-07-04T11:12:12Z) - Object-Aware Self-supervised Multi-Label Learning [9.496981642855769]
マルチラベル学習のためのよりきめ細かい表現を得るために,オブジェクト指向自己スーパービジョン(OASS)法を提案する。
提案手法は,提案しない方式でCSI(Class-Specific Instances)を効率的に生成するために利用することができる。
マルチラベル分類のためのVOC2012データセットの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-05-14T10:14:08Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - GAN for Vision, KG for Relation: a Two-stage Deep Network for Zero-shot
Action Recognition [33.23662792742078]
ゼロショット動作認識のための2段階のディープニューラルネットワークを提案する。
サンプリング段階では,授業の動作特徴と単語ベクトルによって訓練されたGAN(Generative Adversarial Network)を利用する。
分類段階において、アクションクラスの単語ベクトルと関連するオブジェクトの関係に基づいて知識グラフを構築する。
論文 参考訳(メタデータ) (2021-05-25T09:34:42Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z) - BriNet: Towards Bridging the Intra-class and Inter-class Gaps in
One-Shot Segmentation [84.2925550033094]
ほとんどショットのセグメンテーションは、限られたトレーニングサンプルで見えないオブジェクトインスタンスをセグメンテーションするためのモデルの一般化に焦点を当てている。
本稿では,クエリの抽出した特徴とサポートイメージのギャップを埋めるフレームワーク BriNet を提案する。
本フレームワークの有効性は,他の競合手法よりも優れる実験結果によって実証された。
論文 参考訳(メタデータ) (2020-08-14T07:45:50Z) - Part-aware Prototype Network for Few-shot Semantic Segmentation [50.581647306020095]
本稿では,プロトタイプ表現に基づく新規な数ショットセマンティックセマンティックセマンティクスフレームワークを提案する。
私たちのキーとなるアイデアは、全体論的なクラス表現を、部分認識型プロトタイプのセットに分解することです。
提案する部分認識型プロトタイプを生成・拡張する新しいグラフニューラルネットワークモデルを開発した。
論文 参考訳(メタデータ) (2020-07-13T11:03:09Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。