論文の概要: EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering
- arxiv url: http://arxiv.org/abs/2312.12222v1
- Date: Tue, 19 Dec 2023 15:11:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 15:15:10.174682
- Title: EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote
Sensing Visual Question Answering
- Title(参考訳): earthvqa:リレーショナル推論に基づくリモートセンシングによる問合せ可能な地球に向けて
- Authors: Junjue Wang, Zhuo Zheng, Zihang Chen, Ailong Ma, and Yanfei Zhong
- Abstract要約: 本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
- 参考スコア(独自算出の注目度): 11.37120215795946
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Earth vision research typically focuses on extracting geospatial object
locations and categories but neglects the exploration of relations between
objects and comprehensive reasoning. Based on city planning needs, we develop a
multi-modal multi-task VQA dataset (EarthVQA) to advance relational
reasoning-based judging, counting, and comprehensive analysis. The EarthVQA
dataset contains 6000 images, corresponding semantic masks, and 208,593 QA
pairs with urban and rural governance requirements embedded. As objects are the
basis for complex relational reasoning, we propose a Semantic OBject Awareness
framework (SOBA) to advance VQA in an object-centric way. To preserve refined
spatial locations and semantics, SOBA leverages a segmentation network for
object semantics generation. The object-guided attention aggregates object
interior features via pseudo masks, and bidirectional cross-attention further
models object external relations hierarchically. To optimize object counting,
we propose a numerical difference loss that dynamically adds difference
penalties, unifying the classification and regression tasks. Experimental
results show that SOBA outperforms both advanced general and remote sensing
methods. We believe this dataset and framework provide a strong benchmark for
Earth vision's complex analysis. The project page is at
https://Junjue-Wang.github.io/homepage/EarthVQA.
- Abstract(参考訳): 地球視覚研究は通常、地理空間的な物体の位置とカテゴリーを抽出することに焦点を当てるが、対象と包括的推論の関係の探索は無視する。
都市計画の必要性に基づいて,関係推論に基づく分析,カウント,包括的分析を行うマルチモーダルマルチタスクVQAデータセット(EarthVQA)を開発した。
EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。
オブジェクトは複雑なリレーショナル推論の基礎となるため、オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
空間的位置と意味を保存するために、SOBAはオブジェクトの意味論生成のためのセグメンテーションネットワークを利用する。
オブジェクト誘導アテンションは擬似マスクを介してオブジェクト内部の特徴を集約し、双方向のクロスアテンションはさらにオブジェクト外部関係を階層的にモデル化する。
オブジェクトのカウントを最適化するために,動的に差分ペナルティを加え,分類と回帰タスクを統合する数値差分損失を提案する。
実験の結果,SOBAは先進的な一般法とリモートセンシング法の両方に優れていた。
このデータセットとフレームワークは、地球ビジョンの複雑な分析に強力なベンチマークを提供すると信じています。
プロジェクトページはhttps://Junjue-Wang.github.io/homepage/EarthVQAにある。
関連論文リスト
- Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。
提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文 参考訳(メタデータ) (2023-05-12T08:10:14Z) - FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection [4.534713782093219]
上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。
FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
論文 参考訳(メタデータ) (2023-01-08T03:53:50Z) - Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for
Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。
我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。
幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文 参考訳(メタデータ) (2022-07-06T12:31:49Z) - SORNet: Spatial Object-Centric Representations for Sequential
Manipulation [39.88239245446054]
シーケンシャルな操作タスクでは、ロボットが環境の状態を認識し、望ましい目標状態につながる一連のアクションを計画する必要がある。
本研究では,対象対象の標準視に基づくRGB画像からオブジェクト中心表現を抽出するSORNetを提案する。
論文 参考訳(メタデータ) (2021-09-08T19:36:29Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - SIRI: Spatial Relation Induced Network For Spatial Description
Resolution [64.38872296406211]
言語誘導型ローカライゼーションのための新しい関係誘導型ネットワーク(SIRI)を提案する。
提案手法は,80ピクセルの半径で測定した精度で,最先端手法よりも約24%優れていた。
提案手法は,Touchdownと同じ設定で収集した拡張データセットをうまく一般化する。
論文 参考訳(メタデータ) (2020-10-27T14:04:05Z) - Attention Guided Semantic Relationship Parsing for Visual Question
Answering [36.84737596725629]
人間は視覚質問回答(VQA)のような視覚言語タスクを実行するのに必要な高レベルな理解を示す意味ラベルとのオブジェクト間関係を説明する
既存のVQAモデルは、モデルがマルチモーダルタスクを解決しようとしている間、単一のドメイン内のオブジェクト間の相互作用を表現することを制約するオブジェクトレベルの視覚的特徴の組み合わせとして関係を表現します。
本稿では、画像中の主観的対象物三重項ごとに意味的特徴ベクトルを生成する汎用意味関係と、重要な関係三重項を識別する相互自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-05T00:23:49Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z) - Dynamic Refinement Network for Oriented and Densely Packed Object
Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。
我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。
我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文 参考訳(メタデータ) (2020-05-20T11:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。