Fugu-MT 論文翻訳(概要): EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering

論文の概要: EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering

arxiv url: http://arxiv.org/abs/2312.12222v1
Date: Tue, 19 Dec 2023 15:11:32 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-20 15:15:10.174682
Title: EarthVQA: Towards Queryable Earth via Relational Reasoning-Based Remote Sensing Visual Question Answering
Title（参考訳）: earthvqa:リレーショナル推論に基づくリモートセンシングによる問合せ可能な地球に向けて
Authors: Junjue Wang, Zhuo Zheng, Zihang Chen, Ailong Ma, and Yanfei Zhong
Abstract要約: 本研究では,多モードマルチタスクVQAデータセット(EarthVQA)を開発した。 EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。本稿では,オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。
参考スコア（独自算出の注目度）: 11.37120215795946
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Earth vision research typically focuses on extracting geospatial object locations and categories but neglects the exploration of relations between objects and comprehensive reasoning. Based on city planning needs, we develop a multi-modal multi-task VQA dataset (EarthVQA) to advance relational reasoning-based judging, counting, and comprehensive analysis. The EarthVQA dataset contains 6000 images, corresponding semantic masks, and 208,593 QA pairs with urban and rural governance requirements embedded. As objects are the basis for complex relational reasoning, we propose a Semantic OBject Awareness framework (SOBA) to advance VQA in an object-centric way. To preserve refined spatial locations and semantics, SOBA leverages a segmentation network for object semantics generation. The object-guided attention aggregates object interior features via pseudo masks, and bidirectional cross-attention further models object external relations hierarchically. To optimize object counting, we propose a numerical difference loss that dynamically adds difference penalties, unifying the classification and regression tasks. Experimental results show that SOBA outperforms both advanced general and remote sensing methods. We believe this dataset and framework provide a strong benchmark for Earth vision's complex analysis. The project page is at https://Junjue-Wang.github.io/homepage/EarthVQA.
Abstract（参考訳）: 地球視覚研究は通常、地理空間的な物体の位置とカテゴリーを抽出することに焦点を当てるが、対象と包括的推論の関係の探索は無視する。都市計画の必要性に基づいて,関係推論に基づく分析,カウント,包括的分析を行うマルチモーダルマルチタスクVQAデータセット(EarthVQA)を開発した。 EarthVQAデータセットには6000の画像、対応するセマンティックマスク、都市と農村のガバナンス要件を組み込んだ208,593のQAペアが含まれている。オブジェクトは複雑なリレーショナル推論の基礎となるため、オブジェクト中心の方法でVQAを進めるためのセマンティックオブジェクト認識フレームワーク(SOBA)を提案する。空間的位置と意味を保存するために、SOBAはオブジェクトの意味論生成のためのセグメンテーションネットワークを利用する。オブジェクト誘導アテンションは擬似マスクを介してオブジェクト内部の特徴を集約し、双方向のクロスアテンションはさらにオブジェクト外部関係を階層的にモデル化する。オブジェクトのカウントを最適化するために,動的に差分ペナルティを加え,分類と回帰タスクを統合する数値差分損失を提案する。実験の結果,SOBAは先進的な一般法とリモートセンシング法の両方に優れていた。このデータセットとフレームワークは、地球ビジョンの複雑な分析に強力なベンチマークを提供すると信じています。プロジェクトページはhttps://Junjue-Wang.github.io/homepage/EarthVQAにある。

関連論文リスト

GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
Leverage Task Context for Object Affordance Ranking [57.59106517732223]
25の共通タスク、50k以上の画像、661k以上のオブジェクトからなる、最初の大規模タスク指向のアベイランスランキングデータセットを構築しました。その結果,タスクコンテキストに基づくアベイランス学習のパラダイムの実現可能性と,サリエンシランキングやマルチモーダルオブジェクト検出の分野における最先端モデルよりも,我々のモデルの方が優れていることが示された。
論文参考訳（メタデータ） (2024-11-25T04:22:33Z)
A Modern Take on Visual Relationship Reasoning for Grasp Planning [10.543168383800532]
本稿では,視覚的リレーショナル推論による把握計画を提案する。 D3GDは、97の異なるカテゴリから最大35のオブジェクトを持つビンピックシーンを含む、新しいテストベッドである。また、新しいエンドツーエンドのトランスフォーマーベースの依存性グラフ生成モデルであるD3Gを提案する。
論文参考訳（メタデータ） (2024-09-03T16:30:48Z)
Learning Spatial-Semantic Features for Robust Video Object Segmentation [108.045326229865]
空間意味的特徴と識別的オブジェクトクエリを備えたロバストなビデオオブジェクトセグメンテーションフレームワークを提案する。提案手法は,複数のデータセットに対して新しい最先端性能を設定できることを示す。
論文参考訳（メタデータ） (2024-07-10T15:36:00Z)
Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文参考訳（メタデータ） (2024-04-01T14:53:36Z)
Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文参考訳（メタデータ） (2023-07-07T04:03:48Z)
An Object SLAM Framework for Association, Mapping, and High-Level Tasks [12.62957558651032]
本稿では,オブジェクト指向認識とオブジェクト指向ロボットタスクに焦点を当てた包括的オブジェクトSLAMフレームワークを提案する。提案したオブジェクトSLAMフレームワークを効率よく評価するために,さまざまな公開データセットと実世界の結果が使用されている。
論文参考訳（メタデータ） (2023-05-12T08:10:14Z)
FGAHOI: Fine-Grained Anchors for Human-Object Interaction Detection [4.534713782093219]
上記の問題を緩和するために、新しいエンドツーエンドトランスフォーマーベースフレームワーク(FGAHOI)を提案する。 FGAHOIは、マルチスケールサンプリング(MSS)、階層空間認識マージ(HSAM)、タスク認識マージ機構(TAM)の3つの専用コンポーネントから構成される。
論文参考訳（メタデータ） (2023-01-08T03:53:50Z)
Knowing Earlier what Right Means to You: A Comprehensive VQA Dataset for Grounding Relative Directions via Multi-Task Learning [16.538887534958555]
GRiD-A-3Dは,抽象オブジェクトに基づく新しい視覚的質問応答データセットである。我々のデータセットは、相対的な方向へのエンド・ツー・エンドのVQAモデルの機能を詳細に分析することを可能にする。幾つかのエポックにおいて、相対方向を判断するために必要なサブタスクが、相対方向を直感的に処理する順序で学習されることを実証する。
論文参考訳（メタデータ） (2022-07-06T12:31:49Z)
Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文参考訳（メタデータ） (2021-05-11T07:45:32Z)
Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文参考訳（メタデータ） (2020-06-12T09:37:24Z)
Dynamic Refinement Network for Oriented and Densely Packed Object Detection [75.29088991850958]
本稿では,機能選択モジュール (FSM) と動的改善ヘッド (DRH) の2つの新しいコンポーネントからなる動的精細化ネットワークを提案する。我々のFSMは、ニューロンがターゲットオブジェクトの形状や向きに応じて受容野を調整できるのに対して、DRHはオブジェクト認識の方法で動的に予測を洗練させる。我々は、DOTA、HRSC2016、SKU110K、および我々のSKU110K-Rデータセットを含むいくつかの公開ベンチマークで定量的評価を行う。
論文参考訳（メタデータ） (2020-05-20T11:35:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。