Fugu-MT 論文翻訳(概要): Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene Classification

論文の概要: Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene Classification

arxiv url: http://arxiv.org/abs/2402.02094v1
Date: Sat, 3 Feb 2024 09:18:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 22:16:35.329153
Title: Deep Semantic-Visual Alignment for Zero-Shot Remote Sensing Image Scene Classification
Title（参考訳）: ゼロショットリモートセンシング画像シーン分類のためのディープセマンティック・ビジュアルアライメント
Authors: Wenjia Xu, Jiuniu Wang, Zhiwei Wei, Mugen Peng, Yirong Wu
Abstract要約: ゼロショット学習(ZSL)は、トレーニング中に見えない新しいクラスを識別する。以前のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存し、見受けられるクラスから新しいクラスに知識を伝達する。本稿では,視覚的に検出可能な属性を自動的に収集することを提案する。属性と画像のセマンティック・視覚的類似性を記述することで,クラスごとの属性を予測する。
参考スコア（独自算出の注目度）: 26.340737217001497
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural networks have achieved promising progress in remote sensing (RS) image classification, for which the training process requires abundant samples for each class. However, it is time-consuming and unrealistic to annotate labels for each RS category, given the fact that the RS target database is increasing dynamically. Zero-shot learning (ZSL) allows for identifying novel classes that are not seen during training, which provides a promising solution for the aforementioned problem. However, previous ZSL models mainly depend on manually-labeled attributes or word embeddings extracted from language models to transfer knowledge from seen classes to novel classes. Besides, pioneer ZSL models use convolutional neural networks pre-trained on ImageNet, which focus on the main objects appearing in each image, neglecting the background context that also matters in RS scene classification. To address the above problems, we propose to collect visually detectable attributes automatically. We predict attributes for each class by depicting the semantic-visual similarity between attributes and images. In this way, the attribute annotation process is accomplished by machine instead of human as in other methods. Moreover, we propose a Deep Semantic-Visual Alignment (DSVA) that take advantage of the self-attention mechanism in the transformer to associate local image regions together, integrating the background context information for prediction. The DSVA model further utilizes the attribute attention maps to focus on the informative image regions that are essential for knowledge transfer in ZSL, and maps the visual images into attribute space to perform ZSL classification. With extensive experiments, we show that our model outperforms other state-of-the-art models by a large margin on a challenging large-scale RS scene classification benchmark.
Abstract（参考訳）: 深層ニューラルネットワークは、各クラスに豊富なサンプルを必要とするリモートセンシング(RS)画像分類において、有望な進歩を遂げている。しかし、RSターゲットデータベースが動的に増加しているという事実を考えると、各RSカテゴリのラベルをアノテートするのは時間がかかり非現実的である。ゼロショット学習(ZSL)では、トレーニング中に見えない新しいクラスを識別することが可能であり、前述の問題に対する有望な解決策を提供する。しかし、従来のZSLモデルは、主に言語モデルから抽出された手作業でラベル付けされた属性や単語の埋め込みに依存している。さらに、先駆的なzslモデルは、imagenetに事前トレーニングされた畳み込みニューラルネットワークを使用しており、各画像に現れる主要オブジェクトに注目し、rsシーンの分類にも重要な背景コンテキストを無視している。上記の問題に対処するため,視覚的に検出可能な属性を自動的に収集する手法を提案する。属性と画像間の意味・視覚的類似性を記述することで,各クラスの属性を予測する。このように、属性アノテーションプロセスは他の方法のように人間ではなく機械によって達成される。さらに,局部画像領域を関連付けるためにトランスフォーマの自己照準機構を利用する深部セマンティック・ビジュアルアライメント(dsva)を提案し,背景コンテキスト情報を統合して予測を行う。 DSVAモデルは、属性アテンションマップを利用して、ZSLにおける知識伝達に不可欠な情報領域に焦点を当て、視覚画像を属性空間にマッピングしてZSL分類を行う。大規模rsシーン分類ベンチマークにおいて,本モデルは他の最先端モデルよりも大きなマージンで勝っていることを示す。

関連論文リスト

Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文参考訳（メタデータ） (2024-10-25T06:59:11Z)
Attribute Prototype Network for Any-Shot Learning [113.50220968583353]
属性ローカライズ機能を統合した画像表現は、任意のショット、すなわちゼロショットと少数ショットのイメージ分類タスクに有用である、と我々は主張する。クラスレベルの属性のみを用いてグローバルな特徴とローカルな特徴を共同で学習する新しい表現学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-04-04T02:25:40Z)
Semantic decoupled representation learning for remote sensing image change detection [17.548248093344576]
RS画像CDのセマンティックデカップリング表現学習を提案する。我々は、セマンティックマスクを利用して、異なるセマンティック領域の表現をアンタングルする。さらに、下流CDタスクにおける関心対象の認識に役立ち、異なる意味表現を区別するようモデルに強制する。
論文参考訳（メタデータ） (2022-01-15T07:35:26Z)
TransZero: Attribute-guided Transformer for Zero-Shot Learning [25.55614833575993]
ゼロショット学習(ZSL)は、目に見えるクラスから目に見えないクラスに意味的知識を移すことによって、新しいクラスを認識することを目的としている。本稿では,属性誘導型トランスフォーマーネットワークであるTransZeroを提案する。
論文参考訳（メタデータ） (2021-12-03T02:39:59Z)
Region Semantically Aligned Network for Zero-Shot Learning [18.18665627472823]
本研究では、未確認クラスの局所的特徴をそれらの意味属性にマッピングする地域意味ネットワーク(RSAN)を提案する。出力の特定の領域から各属性を取得し、これらの属性を認識に活用する。いくつかの標準ZSLデータセットの実験では、提案したRSAN法の利点が示され、最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2021-10-14T03:23:40Z)
Discriminative Region-based Multi-Label Zero-Shot Learning [145.0952336375342]
マルチラベルゼロショット学習(Multi-label zero-shot Learning、ZSL)は、標準のシングルラベルZSLのより現実的な対位法である。本稿では,地域別識別可能性保存型ZSLに対する代替アプローチを提案する。
論文参考訳（メタデータ） (2021-08-20T17:56:47Z)
Rectifying the Shortcut Learning of Background: Shared Object Concentration for Few-Shot Image Recognition [101.59989523028264]
Few-Shot画像分類は、大規模なデータセットから学んだ事前学習された知識を利用して、一連の下流分類タスクに取り組むことを目的としている。本研究では,Few-Shot LearningフレームワークであるCOSOCを提案する。
論文参考訳（メタデータ） (2021-07-16T07:46:41Z)
Remote Sensing Images Semantic Segmentation with General Remote Sensing Vision Model via a Self-Supervised Contrastive Learning Method [13.479068312825781]
リモートセマンティックセグメンテーションのためのGlobal style and Local matching Contrastive Learning Network (GLCNet)を提案する。具体的には、画像レベルの表現をより良く学習するために、グローバルスタイルのコントラストモジュールが使用される。コントラストモジュールにマッチするローカル特徴は、セマンティックセグメンテーションに有用なローカル領域の表現を学習するために設計されている。
論文参考訳（メタデータ） (2021-06-20T03:03:40Z)
Goal-Oriented Gaze Estimation for Zero-Shot Learning [62.52340838817908]
識別的属性の局在性を改善するために, 目標指向視線推定モジュール(GEM)を提案する。属性記述に導かれた新しい物体を認識する視覚注意領域を得るために,実際の人間の視線位置を予測することを目的とする。この研究は、高レベルのコンピュータビジョンタスクに人間の視線データセットと自動視線推定アルゴリズムを集めることの有望な利点を示しています。
論文参考訳（メタデータ） (2021-03-05T02:14:57Z)
Isometric Propagation Network for Generalized Zero-shot Learning [72.02404519815663]
一般的な戦略は、クラス属性の意味空間と、見たクラスとそのデータに基づいて画像の視覚空間とのマッピングを学ぶことである。本稿では,各空間内のクラス間の関係を強化し,2つの空間におけるクラス依存性を整合させるIsometric propagation Network (IPN)を提案する。 IPNは3つの人気のあるゼロショット学習ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2021-02-03T12:45:38Z)
Attribute Prototype Network for Zero-Shot Learning [113.50220968583353]
差別的グローバルな特徴と局所的な特徴を共同で学習するゼロショット表現学習フレームワークを提案する。本モデルでは,画像中の属性の視覚的証拠を指摘し,画像表現の属性ローカライゼーション能力の向上を確認した。
論文参考訳（メタデータ） (2020-08-19T06:46:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。