論文の概要: Instance-aware Remote Sensing Image Captioning with Cross-hierarchy
Attention
- arxiv url: http://arxiv.org/abs/2105.04996v1
- Date: Tue, 11 May 2021 12:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 13:56:21.264099
- Title: Instance-aware Remote Sensing Image Captioning with Cross-hierarchy
Attention
- Title(参考訳): クロスヒエラルキーを考慮したインスタンス対応リモートセンシング画像キャプション
- Authors: Chengze Wang, Zhiyu Jiang, Yuan Yuan
- Abstract要約: 空間的注意は、リモートセンシング画像キャプションのパフォーマンスを高めるための簡単なアプローチです。
インスタンス認識と階層横断に注目したリモートセンシング画像キャプションジェネレータを提案する。
- 参考スコア(独自算出の注目度): 11.23821696220285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The spatial attention is a straightforward approach to enhance the
performance for remote sensing image captioning. However, conventional spatial
attention approaches consider only the attention distribution on one fixed
coarse grid, resulting in the semantics of tiny objects can be easily ignored
or disturbed during the visual feature extraction. Worse still, the fixed
semantic level of conventional spatial attention limits the image understanding
in different levels and perspectives, which is critical for tackling the huge
diversity in remote sensing images. To address these issues, we propose a
remote sensing image caption generator with instance-awareness and
cross-hierarchy attention. 1) The instances awareness is achieved by
introducing a multi-level feature architecture that contains the visual
information of multi-level instance-possible regions and their surroundings. 2)
Moreover, based on this multi-level feature extraction, a cross-hierarchy
attention mechanism is proposed to prompt the decoder to dynamically focus on
different semantic hierarchies and instances at each time step. The
experimental results on public datasets demonstrate the superiority of proposed
approach over existing methods.
- Abstract(参考訳): 空間的注意は、リモートセンシング画像キャプションの性能を高めるための簡単なアプローチである。
しかし、従来の空間的注意法では、1つの固定された粗い格子上の注意分布のみを考慮し、その結果、小さな物体の意味論は視覚的特徴抽出において容易に無視または妨げられる。
さらに悪いことに、従来の空間的注意の固定された意味レベルは、異なるレベルと視点でのイメージ理解を制限する。
この問題に対処するために,インスタンス認識と階層間注意を備えたリモートセンシング画像キャプション生成器を提案する。
1) インスタンス認識は,マルチレベルのインスタンス候補とその周辺領域の視覚的情報を含むマルチレベル機能アーキテクチャを導入することで実現される。
2) このマルチレベル特徴抽出に基づき, デコーダが各時間ステップで異なる意味階層とインスタンスに動的に焦点を合わせるように, 階層間注意機構が提案されている。
公開データセットにおける実験結果は,提案手法が既存手法よりも優れていることを示す。
関連論文リスト
- Spatial Structure Constraints for Weakly Supervised Semantic
Segmentation [100.0316479167605]
クラスアクティベーションマップ(CAM)は、オブジェクトの最も識別性の高い部分のみを見つけることができる。
注意伸縮の余剰なオブジェクトの過剰な活性化を軽減するために,弱い教師付きセマンティックセマンティックセグメンテーションのための空間構造制約(SSC)を提案する。
提案手法は,PASCAL VOC 2012とCOCOデータセットでそれぞれ72.7%,47.0%mIoUを達成した。
論文 参考訳(メタデータ) (2024-01-20T05:25:25Z) - HEAP: Unsupervised Object Discovery and Localization with Contrastive
Grouping [29.678756772610797]
教師なしオブジェクトの発見と位置決めは、監督なしで画像内のオブジェクトを検出し、セグメント化することを目的としている。
近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。
これらの問題に対処するために、Herarchical mErging framework via contrAstive grouPing (HEAP) を紹介する。
論文 参考訳(メタデータ) (2023-12-29T06:46:37Z) - SACANet: scene-aware class attention network for semantic segmentation
of remote sensing images [4.124381172041927]
リモートセンシング画像のセマンティックセグメンテーションのためのシーン認識クラスアテンションネットワーク(SACANet)を提案する。
3つのデータセットの実験結果は、SACANetが他の最先端の手法より優れ、その有効性を検証することを示している。
論文 参考訳(メタデータ) (2023-04-22T14:54:31Z) - Deep Spectral Methods: A Surprisingly Strong Baseline for Unsupervised
Semantic Segmentation and Localization [98.46318529630109]
画像分解をグラフ分割問題として再フレーミングすることで,従来のスペクトル分割法から着想を得た。
これらの固有ベクトルはすでにイメージを意味のあるセグメントに分解しており、シーン内のオブジェクトのローカライズに容易に利用できる。
データセットにまたがるこれらのセグメントに関連する機能をクラスタ化することで、明確に定義された、名前付き可能なリージョンを得ることができる。
論文 参考訳(メタデータ) (2022-05-16T17:47:44Z) - Guiding Attention using Partial-Order Relationships for Image Captioning [2.620091916172863]
誘導注意ネットワーク機構は、視覚シーンとテキスト記述の関係を利用する。
この埋め込み空間は、共有セマンティック空間における類似の画像、トピック、キャプションを許容する。
MSCOCOデータセットに基づく実験結果は,我々のアプローチの競争力を示している。
論文 参考訳(メタデータ) (2022-04-15T14:22:09Z) - AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。
本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。
AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文 参考訳(メタデータ) (2022-02-18T10:14:45Z) - Region-level Active Learning for Cluttered Scenes [60.93811392293329]
本稿では,従来の画像レベルのアプローチとオブジェクトレベルのアプローチを一般化した領域レベルのアプローチに仮定する新たな戦略を提案する。
その結果,本手法はラベル付けの労力を大幅に削減し,クラス不均衡や散らかったシーンを生かしたリアルなデータに対する希少なオブジェクト検索を改善することが示唆された。
論文 参考訳(メタデータ) (2021-08-20T14:02:38Z) - Spatially Consistent Representation Learning [12.120041613482558]
本研究では,空間的に一貫した表現学習アルゴリズム(SCRL)を提案する。
ランダムに切り抜かれた局所領域のコヒーレントな空間表現を作ろうとする新しい自己教師付き目的を考案する。
ベンチマークデータセットを用いた下流のローカライゼーションタスクでは、提案したSCRLは大幅な性能改善を示す。
論文 参考訳(メタデータ) (2021-03-10T15:23:45Z) - Rethinking of the Image Salient Object Detection: Object-level Semantic
Saliency Re-ranking First, Pixel-wise Saliency Refinement Latter [62.26677215668959]
本稿では,意味的に有意な領域を粗い位置で特定する,軽量で教師付きの深層ネットワークを提案する。
次に,これらセマンティック・サリエント領域の深層モデルを画素ワイド・サリエンシ改善として融合する。
提案手法は単純だが有効であり,本手法は主眼をオブジェクトレベルのセマンティック・リグレード問題とみなすための最初の試みである。
論文 参考訳(メタデータ) (2020-08-10T07:12:43Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。