論文の概要: Visual Question Answering in Remote Sensing with Cross-Attention and
Multimodal Information Bottleneck
- arxiv url: http://arxiv.org/abs/2306.14264v1
- Date: Sun, 25 Jun 2023 15:09:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:53:11.888368
- Title: Visual Question Answering in Remote Sensing with Cross-Attention and
Multimodal Information Bottleneck
- Title(参考訳): クロスタッチとマルチモーダル情報ボトルネックを用いたリモートセンシングにおける視覚的質問応答
- Authors: Jayesh Songara, Shivam Pande, Shabnam Choudhury, Biplab Banerjee and
Rajbabu Velmurugan
- Abstract要約: 遠隔センシングにおける視覚的質問応答(VQA)の問題に対処する。
リモートセンシングされた画像には、識別や物体検出のタスクに重要な情報が含まれているが、高次元性、体積、冗長性のため、その処理には大きな課題がある。
本稿では,情報とクロスアテンションに基づくアプローチを提案する。CNN-LSTMをベースとしたクロスアテンションは,画像と言語モダリティの情報を強調し,両者の関連性を確立すると同時に,VQAタスクを実行するために必要なすべての関連情報を持つ低次元層を学習する。
- 参考スコア(独自算出の注目度): 14.719648367178259
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this research, we deal with the problem of visual question answering (VQA)
in remote sensing. While remotely sensed images contain information significant
for the task of identification and object detection, they pose a great
challenge in their processing because of high dimensionality, volume and
redundancy. Furthermore, processing image information jointly with language
features adds additional constraints, such as mapping the corresponding image
and language features. To handle this problem, we propose a cross attention
based approach combined with information maximization. The CNN-LSTM based
cross-attention highlights the information in the image and language modalities
and establishes a connection between the two, while information maximization
learns a low dimensional bottleneck layer, that has all the relevant
information required to carry out the VQA task. We evaluate our method on two
VQA remote sensing datasets of different resolutions. For the high resolution
dataset, we achieve an overall accuracy of 79.11% and 73.87% for the two test
sets while for the low resolution dataset, we achieve an overall accuracy of
85.98%.
- Abstract(参考訳): 本研究では,リモートセンシングにおける視覚的質問応答(VQA)の問題に対処する。
リモートセンシングされた画像は、識別および物体検出のタスクに重要な情報を含んでいるが、高い次元、ボリューム、冗長性のため、処理において大きな課題となる。
さらに、画像情報と言語特徴を併用して処理することで、対応する画像と言語特徴のマッピングなどの制約が追加される。
この問題に対処するために,情報最大化とクロスアテンションに基づくアプローチを提案する。
CNN-LSTMをベースとしたクロスアテンションは、画像と言語モダリティの情報を強調し、両者の接続を確立する一方、情報の最大化は、VQAタスクを実行するために必要なすべての関連情報を持つ低次元ボトルネック層を学習する。
異なる解像度の2つのVQAリモートセンシングデータセットについて評価を行った。
高解像度データセットでは、2つのテストセットに対して79.11%と73.87%の総合精度を達成し、低解像度データセットでは85.98%の総合精度を達成する。
関連論文リスト
- PGNeXt: High-Resolution Salient Object Detection via Pyramid Grafting Network [24.54269823691119]
本稿では、データセットとネットワークフレームワークの両方の観点から、より難解な高分解能サルエントオブジェクト検出(HRSOD)について述べる。
HRSODデータセットの欠如を補うため、UHRSDと呼ばれる大規模高解像度の高分解能物体検出データセットを慎重に収集した。
すべての画像はピクセルレベルで微妙にアノテートされ、以前の低解像度のSODデータセットをはるかに上回っている。
論文 参考訳(メタデータ) (2024-08-02T09:31:21Z) - Segmentation-guided Attention for Visual Question Answering from Remote Sensing Images [1.6932802756478726]
Visual Question Answering for Remote Sensing (RSVQA)は、リモートセンシング画像の内容に関する自然言語の質問に答えることを目的としたタスクである。
セグメンテーションによって導かれるアテンションメカニズムをRSVQAパイプラインに埋め込むことを提案する。
16のセグメンテーションクラスと問合せ/問合せペアでアノテートされた非常に高解像度のRGB写真を利用する新しいVQAデータセットを提供する。
論文 参考訳(メタデータ) (2024-07-11T16:59:32Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Object Detection in Hyperspectral Image via Unified Spectral-Spatial
Feature Aggregation [55.9217962930169]
S2ADetは、高スペクトル画像に固有の豊富なスペクトル情報と空間補完情報を利用する物体検出器である。
S2ADetは既存の最先端メソッドを超え、堅牢で信頼性の高い結果を達成する。
論文 参考訳(メタデータ) (2023-06-14T09:01:50Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - LocalTrans: A Multiscale Local Transformer Network for Cross-Resolution
Homography Estimation [52.63874513999119]
クロスレゾリューション画像アライメントは、マルチスケールギガ撮影において重要な問題である。
既存のディープ・ホモグラフィー手法は、それらの間の対応の明示的な定式化を無視し、クロスレゾリューションの課題において精度が低下する。
本稿では,マルチモーダル入力間の対応性を明確に学習するために,マルチスケール構造内に埋め込まれたローカルトランスフォーマーネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-08T02:51:45Z) - TJU-DHD: A Diverse High-Resolution Dataset for Object Detection [48.94731638729273]
大規模でリッチな多様性と高解像度のデータセットは、よりよいオブジェクト検出方法を開発する上で重要な役割を果たす。
私たちは多種多様な高解像度データセット(TJU-DHD)を構築します。
データセットには115,354枚の高解像度画像と709,330個のラベル付きオブジェクトが含まれており、スケールと外観に大きな違いがある。
論文 参考訳(メタデータ) (2020-11-18T09:32:24Z) - Multi-image Super Resolution of Remotely Sensed Images using Residual
Feature Attention Deep Neural Networks [1.3764085113103222]
本研究は,マルチイメージ超解像課題に効果的に取り組む新しい残像注意モデル(RAMS)を提案する。
本研究では,3次元畳み込みによる視覚特徴の注意機構を導入し,意識的なデータ融合と情報抽出を実現する。
我々の表現学習ネットワークは、冗長な低周波信号を流すためにネストした残差接続を広範囲に利用している。
論文 参考訳(メタデータ) (2020-07-06T22:54:02Z) - RSVQA: Visual Question Answering for Remote Sensing Data [6.473307489370171]
本稿では,リモートセンシングデータ(RSVQA)における視覚的質問応答の課題を紹介する。
自然言語で定式化された質問を使って画像と対話する。
データセットは(教師付きメソッドを使用して)トレーニングや、RSVQAタスクを解決するためのモデル評価に使用することができる。
論文 参考訳(メタデータ) (2020-03-16T17:09:31Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。