Fugu-MT 論文翻訳(概要): RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data

論文の概要: RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data

arxiv url: http://arxiv.org/abs/2210.12634v1
Date: Sun, 23 Oct 2022 07:08:22 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-25 17:20:28.326076
Title: RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data
Title（参考訳）: RSVG:リモートセンシングデータに基づく視覚接地のためのデータとモデル探索
Authors: Yang Zhan, Zhitong Xiong and Yuan Yuan
Abstract要約: リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題について紹介する。 RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。本研究では,RSVGの大規模ベンチマークデータセットを構築し,RSVGタスクのディープラーニングモデルについて検討する。
参考スコア（独自算出の注目度）: 14.742224345061487
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we introduce the task of visual grounding for remote sensing data (RSVG). RSVG aims to localize the referred objects in remote sensing (RS) images with the guidance of natural language. To retrieve rich information from RS imagery using natural language, many research tasks, like RS image visual question answering, RS image captioning, and RS image-text retrieval have been investigated a lot. However, the object-level visual grounding on RS images is still under-explored. Thus, in this work, we propose to construct the dataset and explore deep learning models for the RSVG task. Specifically, our contributions can be summarized as follows. 1) We build the new large-scale benchmark dataset of RSVG, termed RSVGD, to fully advance the research of RSVG. This new dataset includes image/expression/box triplets for training and evaluating visual grounding models. 2) We benchmark extensive state-of-the-art (SOTA) natural image visual grounding methods on the constructed RSVGD dataset, and some insightful analyses are provided based on the results. 3) A novel transformer-based Multi-Level Cross-Modal feature learning (MLCM) module is proposed. Remotely-sensed images are usually with large scale variations and cluttered backgrounds. To deal with the scale-variation problem, the MLCM module takes advantage of multi-scale visual features and multi-granularity textual embeddings to learn more discriminative representations. To cope with the cluttered background problem, MLCM adaptively filters irrelevant noise and enhances salient features. In this way, our proposed model can incorporate more effective multi-level and multi-modal features to boost performance. Furthermore, this work also provides useful insights for developing better RSVG models. The dataset and code will be publicly available at https://github.com/ZhanYang-nwpu/RSVG-pytorch.
Abstract（参考訳）: 本稿では,リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題を紹介する。 RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。自然言語を用いたrs画像からリッチな情報を取得するために,rs画像の視覚的質問応答,rs画像キャプション,rs画像テキスト検索など,多くの研究課題が検討されている。しかし、RS画像上のオブジェクトレベルの視覚的接地はまだ未探索である。そこで本研究では,RSVGタスクのデータセットの構築と深層学習モデルの探索を提案する。特に、私たちの貢献は次のように要約できます。 1) RSVGの研究を全面的に進めるため, RSVGDと呼ばれるRSVGの新しい大規模ベンチマークデータセットを構築した。この新しいデータセットには、ビジュアルグラウンドモデルのトレーニングと評価のためのイメージ/表現/ボックストリプレットが含まれている。 2) 構築したRSVGDデータセット上で, 広範囲にわたる最先端(SOTA)の自然画像グラウンドディング手法をベンチマークし, 結果に基づいて洞察に富んだ分析を行った。 3) トランスを用いたマルチレベルクロスモーダル特徴学習(MLCM)モジュールを提案する。リモートセンシング画像は通常、大規模なバリエーションと乱雑な背景を持つ。大規模変分問題に対処するために、MLCMモジュールは、より識別的な表現を学ぶために、マルチスケールの視覚特徴と多粒度テキスト埋め込みを利用する。乱雑な背景問題に対処するため、MLCMは無関係な雑音を適応的にフィルタリングし、健全な特徴を高める。このようにして,提案モデルでは,より効果的なマルチレベルおよびマルチモーダル機能を組み込んで性能を向上させることができる。さらに、この研究はより良いrsvgモデルを開発するための有用な洞察を提供する。データセットとコードはhttps://github.com/ZhanYang-nwpu/RSVG-pytorchで公開される。

関連論文リスト

RingMo-Agent: A Unified Remote Sensing Foundation Model for Multi-Platform and Multi-Modal Reasoning [15.670921552151775]
RingMo-Agentはマルチモーダルおよびマルチプラットフォームデータを扱うように設計されている。 RS-VL3Mと呼ばれる大規模な視覚言語データセットでサポートされている。これは視覚的理解と高度な分析タスクの両方に有効である。
論文参考訳（メタデータ） (2025-07-28T12:39:33Z)
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文参考訳（メタデータ） (2025-03-10T17:51:16Z)
RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。 RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文参考訳（メタデータ） (2024-12-07T15:11:21Z)
Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [24.342190878813234]
ImageRAG for RSは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。 ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文参考訳（メタデータ） (2024-11-12T10:12:12Z)
RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文参考訳（メタデータ） (2024-08-27T02:45:26Z)
EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension [12.9701635989222]
EarthMarkerと呼ばれる最初の視覚的プロンプトモデルが提案され、画像レベル、領域レベル、ポイントレベルRSの解釈に優れる。多様な多粒度視覚知覚能力を持つEarthMarkerを実現するために、クロスドメイン位相学習戦略を開発した。 RSの視覚的プロンプトデータの欠如に対処するため、マルチモーダルな視覚的プロンプト命令を備えたRSVPというデータセットを構築した。
論文参考訳（メタデータ） (2024-07-18T15:35:00Z)
Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文参考訳（メタデータ） (2024-04-23T21:00:22Z)
RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。 RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文参考訳（メタデータ） (2024-04-03T12:06:01Z)
GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。 GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文参考訳（メタデータ） (2023-11-24T18:59:10Z)
RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文参考訳（メタデータ） (2023-06-14T16:40:19Z)
Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。 ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-14T11:53:12Z)
Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文参考訳（メタデータ） (2022-04-21T03:18:09Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文参考訳（メタデータ） (2021-03-14T11:18:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。