論文の概要: Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2407.08669v1
- Date: Thu, 11 Jul 2024 16:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 16:30:47.705499
- Title: Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images
- Title(参考訳): リモートセンシング画像からの視覚質問応答に対するセグメンテーション誘導注意
- Authors: Lucrezia Tosato, Hichem Boussaid, Flora Weissgerber, Camille Kurtz, Laurent Wendling, Sylvain Lobry,
- Abstract要約: Visual Question Answering for Remote Sensing (RSVQA)は、リモートセンシング画像の内容に関する自然言語の質問に答えることを目的としたタスクである。
セグメンテーションによって導かれるアテンションメカニズムをRSVQAパイプラインに埋め込むことを提案する。
16のセグメンテーションクラスと問合せ/問合せペアでアノテートされた非常に高解像度のRGB写真を利用する新しいVQAデータセットを提供する。
- 参考スコア(独自算出の注目度): 1.6932802756478726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering for Remote Sensing (RSVQA) is a task that aims at answering natural language questions about the content of a remote sensing image. The visual features extraction is therefore an essential step in a VQA pipeline. By incorporating attention mechanisms into this process, models gain the ability to focus selectively on salient regions of the image, prioritizing the most relevant visual information for a given question. In this work, we propose to embed an attention mechanism guided by segmentation into a RSVQA pipeline. We argue that segmentation plays a crucial role in guiding attention by providing a contextual understanding of the visual information, underlying specific objects or areas of interest. To evaluate this methodology, we provide a new VQA dataset that exploits very high-resolution RGB orthophotos annotated with 16 segmentation classes and question/answer pairs. Our study shows promising results of our new methodology, gaining almost 10% of overall accuracy compared to a classical method on the proposed dataset.
- Abstract(参考訳): Visual Question Answering for Remote Sensing (RSVQA)は、リモートセンシング画像の内容に関する自然言語の質問に答えることを目的としたタスクである。
したがって、視覚的特徴抽出はVQAパイプラインにおいて不可欠なステップである。
このプロセスに注意機構を組み込むことで、モデルは与えられた質問に対して最も関連性の高い視覚情報を優先順位付けして、画像の健全な領域に選択的に焦点を合わせることができる。
本研究では,RSVQAパイプラインにセグメンテーションによって誘導されるアテンション機構を組み込むことを提案する。
セグメンテーションは、視覚情報、基礎となる特定の対象や関心領域の文脈的理解を提供することによって、注意を誘導する上で重要な役割を担っていると論じる。
この手法を評価するために,16のセグメンテーションクラスと問合せ/問合せペアをアノテートした非常に高解像度のRGB写真を利用する新しいVQAデータセットを提供する。
本研究は,提案手法の有望な結果を示し,提案したデータセットの古典的手法と比較して,全体の約10%の精度が得られた。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
そこで本研究では,質問応答とグラウンド化のタスクを統一する,シンプルで効果的なベースライン手法であるVisTAを提案する。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - Self-Correlation and Cross-Correlation Learning for Few-Shot Remote
Sensing Image Semantic Segmentation [27.59330408178435]
リモートセマンティックセマンティックセマンティックセマンティクスは、クエリイメージからターゲットオブジェクトをセグメントすることを学ぶことを目的としている。
本稿では,数発のリモートセンシング画像セマンティックセマンティックセグメンテーションのための自己相関・相互相関学習ネットワークを提案する。
本モデルは,サポート画像とクエリ画像の自己相関と相互相関の両方を考慮し,一般化を促進させる。
論文 参考訳(メタデータ) (2023-09-11T21:53:34Z) - Explicit Visual Prompting for Low-Level Structure Segmentations [55.51869354956533]
我々はExplicit Visual Prompting(EVP)という新しいビジュアルプロンプトモデルを提案する。
EVPは、同じ量のチューナブルパラメータの下で、他のパラメータ効率のチューニングプロトコルを著しく上回る。
EVPはまた、様々な低レベル構造セグメンテーションタスクにおける最先端のパフォーマンスも達成している。
論文 参考訳(メタデータ) (2023-03-20T06:01:53Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - From Pixels to Objects: Cubic Visual Attention for Visual Question
Answering [132.95819467484517]
近年,注目度に基づく視覚質問応答 (VQA) は,質問を利用して回答に関連する異なる視覚領域をターゲットにすることで大きな成功を収めている。
本稿では、VQAタスクを改善するために、新しいチャネルと空間的注意をオブジェクト領域に適用し、キュービック視覚注意(CVA)モデルを提案する。
実験の結果,提案手法は最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2022-06-04T07:03:18Z) - Coarse-to-Fine Reasoning for Visual Question Answering [18.535633096397397]
視覚質問応答(VQA)タスクにおいて,視覚的特徴と意味的手がかりのギャップを埋める新たな推論フレームワークを提案する。
提案手法は,まず特徴を抽出し,画像と質問から述語を抽出する。
次に、これらの特徴を効果的に学習し、粗大な方法で述語する新しい推論フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-06T06:29:52Z) - Few-Shot Segmentation with Global and Local Contrastive Learning [51.677179037590356]
提案するグローバルローカルコントラスト学習を用いて,ラベルのない画像からクエリ情報を学習するための先行抽出器を提案する。
クエリー画像の以前の領域マップを生成し、オブジェクトの位置を判断し、サポート機能とのクロスインタラクションを行うためのガイダンスを作成する。
ベルとホイッスルを使わずに、提案手法は、数発のセグメンテーションタスクに対して、新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-11T15:52:22Z) - Ventral-Dorsal Neural Networks: Object Detection via Selective Attention [51.79577908317031]
我々はVDNet(Ventral-Dorsal Networks)と呼ばれる新しいフレームワークを提案する。
人間の視覚システムの構造にインスパイアされた我々は「Ventral Network」と「Dorsal Network」の統合を提案する。
実験の結果,提案手法は最先端の物体検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-05-15T23:57:36Z) - Visual Question Answering Using Semantic Information from Image
Descriptions [2.6519061087638014]
本稿では,視覚的質問応答(VQA)タスクにおいて,画像の領域から抽出した画像の特徴や自然言語質問,意味的知識を利用して質問に対するオープンな回答を生成する,深層ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-23T04:35:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。