論文の概要: Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization
- arxiv url: http://arxiv.org/abs/2403.10298v1
- Date: Fri, 15 Mar 2024 13:40:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-18 17:01:25.292025
- Title: Context-Semantic Quality Awareness Network for Fine-Grained Visual Categorization
- Title(参考訳): 微粒化視覚分類のための文脈意味品質認識ネットワーク
- Authors: Qin Xu, Sitong Li, Jiahui Wang, Bo Jiang, Jinhui Tang,
- Abstract要約: 細粒度視覚分類のための弱教師付き文脈意味品質認識ネットワーク(CSQA-Net)を提案する。
リッチな部分記述子とグローバルセマンティクスの空間的関係をモデル化するため,我々は新しい多部・多スケールクロスアテンション(MPMSCA)モジュールを開発した。
また、バックボーンネットワークの異なるレベルからの階層的セマンティクスを段階的に監視し、強化する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
- 参考スコア(独自算出の注目度): 30.92656780805478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Exploring and mining subtle yet distinctive features between sub-categories with similar appearances is crucial for fine-grained visual categorization (FGVC). However, less effort has been devoted to assessing the quality of extracted visual representations. Intuitively, the network may struggle to capture discriminative features from low-quality samples, which leads to a significant decline in FGVC performance. To tackle this challenge, we propose a weakly supervised Context-Semantic Quality Awareness Network (CSQA-Net) for FGVC. In this network, to model the spatial contextual relationship between rich part descriptors and global semantics for capturing more discriminative details within the object, we design a novel multi-part and multi-scale cross-attention (MPMSCA) module. Before feeding to the MPMSCA module, the part navigator is developed to address the scale confusion problems and accurately identify the local distinctive regions. Furthermore, we propose a generic multi-level semantic quality evaluation module (MLSQE) to progressively supervise and enhance hierarchical semantics from different levels of the backbone network. Finally, context-aware features from MPMSCA and semantically enhanced features from MLSQE are fed into the corresponding quality probing classifiers to evaluate their quality in real-time, thus boosting the discriminability of feature representations. Comprehensive experiments on four popular and highly competitive FGVC datasets demonstrate the superiority of the proposed CSQA-Net in comparison with the state-of-the-art methods.
- Abstract(参考訳): 類似した外観を持つサブカテゴリ間の微妙な特徴の探索とマイニングは、きめ細かい視覚分類(FGVC)に不可欠である。
しかし、抽出された視覚的表現の質を評価する努力は少ない。
直感的には、ネットワークは低品質のサンプルから差別的特徴を捉えるのに苦労する可能性があるため、FGVCの性能は著しく低下する。
この課題に対処するために、FGVCのための弱教師付きコンテキスト意味品質意識ネットワーク(CSQA-Net)を提案する。
このネットワークでは、リッチな部分記述子とグローバルな意味論の空間的関係をモデル化し、オブジェクト内のより識別的な詳細を捉えるために、新しいマルチパート・マルチスケール・クロスアテンション(MPMSCA)モジュールを設計する。
MPMSCAモジュールに給餌する前に、この部分ナビゲータを開発し、スケール混乱問題に対処し、局所的な特徴領域を正確に識別する。
さらに、バックボーンネットワークの異なるレベルから階層的セマンティクスを段階的に監視し、拡張する汎用的マルチレベルセマンティクス評価モジュール(MLSQE)を提案する。
最後に、MPMSCAのコンテキスト認識機能とMLSQEのセマンティック強化機能とを対応する品質検証分類器に入力し、その品質をリアルタイムで評価することにより、特徴表現の識別性を高める。
4つの人気かつ高い競争力を持つFGVCデータセットに関する総合的な実験は、提案したCSQA-Netが最先端の手法と比較して優れていることを示す。
関連論文リスト
- Q-Ground: Image Quality Grounding with Large Multi-modality Models [61.72022069880346]
Q-Groundは、大規模な視覚的品質グラウンドに取り組むための最初のフレームワークである。
Q-Groundは、大規模なマルチモダリティモデルと詳細な視覚的品質分析を組み合わせる。
コントリビューションの中心は、QGround-100Kデータセットの導入です。
論文 参考訳(メタデータ) (2024-07-24T06:42:46Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Weakly Supervised Semantic Segmentation by Knowledge Graph Inference [11.056545020611397]
本稿では、Wakly Supervised Semantic (WSSS)を強化するグラフ推論に基づくアプローチを提案する。
本研究の目的は,マルチラベル分類とセグメンテーションネットワークの段階を同時に拡張することで,WSSSを全体的改善することである。
PASCAL VOC 2012およびMS-COCOデータセット上でWSSSの最先端性能を達成した。
論文 参考訳(メタデータ) (2023-09-25T11:50:19Z) - Delving into Multimodal Prompting for Fine-grained Visual Classification [57.12570556836394]
細粒度視覚分類(FGVC)は、より広いカテゴリーの細分化を分類する。
事前学習型視覚言語モデルの最近の進歩は、様々なハイレベル視覚タスクにおいて顕著な性能を示している。
対照的な言語画像サブカテゴリ(CLIP)モデルに基づいて,MP-FGVCと呼ばれる新しいマルチモーダルプロンプトソリューションを提案する。
論文 参考訳(メタデータ) (2023-09-16T07:30:52Z) - MFPNet: Multi-scale Feature Propagation Network For Lightweight Semantic
Segmentation [5.58363644107113]
マルチスケール特徴伝達ネットワーク(Net)と呼ばれる,新しい軽量セグメンテーションアーキテクチャを提案する。
フレキシブル・ボトルネック・残差モジュール(BRM)からなる対称残差ブロックを有するロバスト・デコーダ構造を設計する。
遅延長範囲のコンテキスト関係をモデル化する能力の利点を生かして、グラフ畳み込みネットワーク(GCN)を活用し、BRMブロック間のマルチスケールフィーチャの伝搬を容易にする。
論文 参考訳(メタデータ) (2023-09-10T02:02:29Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - Semantic Feature Integration network for Fine-grained Visual
Classification [5.182627302449368]
本稿では,これらの課題に対処するためにセマンティック・フィーチャー・インテグレーション・ネットワーク(SFI-Net)を提案する。
不要な特徴を排除し、識別的特徴間の意味関係を再構築することにより、SFI-Netは満足な性能を実現した。
論文 参考訳(メタデータ) (2023-02-13T07:32:25Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Global Context-Aware Progressive Aggregation Network for Salient Object
Detection [117.943116761278]
我々は,低レベルな外観特徴,高レベルな意味特徴,グローバルな文脈特徴を統合化するための新しいネットワークGCPANetを提案する。
提案手法は, 定量的かつ定性的に, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-03-02T04:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。