論文の概要: VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding
- arxiv url: http://arxiv.org/abs/2406.12384v1
- Date: Tue, 18 Jun 2024 08:15:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 19:56:37.330456
- Title: VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding
- Title(参考訳): VRSBench: リモートセンシング画像理解のための多眼視線ベンチマークデータセット
- Authors: Xiang Li, Jian Ding, Mohamed Elhoseiny,
- Abstract要約: 本稿では、VRSBenchと呼ばれるリモートセンシング画像理解のためのVersatile視覚言語ベンチマークを提案する。
このベンチマークは29,614枚の画像と29,614個の人間認証された詳細なキャプション、52,472個のオブジェクト参照、123,221個の質問応答ペアで構成されている。
さらに,画像キャプション,視覚的グラウンド,視覚的質問応答という3つの視覚言語課題に対して,このベンチマークの最先端モデルについて検討した。
- 参考スコア(独自算出の注目度): 41.74095171149082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a new benchmark designed to advance the development of general-purpose, large-scale vision-language models for remote sensing images. Although several vision-language datasets in remote sensing have been proposed to pursue this goal, existing datasets are typically tailored to single tasks, lack detailed object information, or suffer from inadequate quality control. Exploring these improvement opportunities, we present a Versatile vision-language Benchmark for Remote Sensing image understanding, termed VRSBench. This benchmark comprises 29,614 images, with 29,614 human-verified detailed captions, 52,472 object references, and 123,221 question-answer pairs. It facilitates the training and evaluation of vision-language models across a broad spectrum of remote sensing image understanding tasks. We further evaluated state-of-the-art models on this benchmark for three vision-language tasks: image captioning, visual grounding, and visual question answering. Our work aims to significantly contribute to the development of advanced vision-language models in the field of remote sensing. The data and code can be accessed at https://github.com/lx709/VRSBench.
- Abstract(参考訳): 我々は,リモートセンシング画像のための汎用大規模視覚言語モデルの開発を促進するために,新しいベンチマークを導入する。
リモートセンシングにおけるいくつかのビジョン言語データセットがこの目標を達成するために提案されているが、既存のデータセットは通常、単一のタスクに適したもの、詳細なオブジェクト情報がないもの、あるいは不適切な品質管理に苦しむものとなっている。
これらの改善の機会を探るため,VRSBenchと呼ばれるリモートセンシング画像理解のためのVersatile視覚言語ベンチマークを提案する。
このベンチマークは29,614枚の画像と29,614個の人間認証された詳細なキャプション、52,472個のオブジェクト参照、123,221個の質問応答ペアで構成されている。
リモートセンシング画像理解タスクの幅広い範囲にわたる視覚言語モデルのトレーニングと評価を容易にする。
さらに,画像キャプション,視覚的グラウンド,視覚的質問応答という3つの視覚言語課題に対して,このベンチマークの最先端モデルについて検討した。
本研究は,遠隔センシング分野における高度な視覚言語モデルの開発に大きく貢献することを目的としている。
データとコードはhttps://github.com/lx709/VRSBenchでアクセスできます。
関連論文リスト
- Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - SkyScript: A Large and Semantically Diverse Vision-Language Dataset for
Remote Sensing [14.79627534702196]
我々は、29Kの異なるセマンティックタグを含む260万の画像テキストペアからなる、リモートセンシング画像のための視覚言語データセットを構築した。
このデータセット上で連続的な事前学習を行うことで、ゼロショットシーン分類において平均精度が6.2%のベースラインモデルを超えるVLMが得られる。
また、オブジェクト属性の細粒度分類とクロスモーダル検索のためのゼロショット転送の能力を示す。
論文 参考訳(メタデータ) (2023-12-20T09:19:48Z) - MetaSegNet: Metadata-collaborative Vision-Language Representation Learning for Semantic Segmentation of Remote Sensing Images [7.163236160505616]
リモートセンシング画像の意味的セグメンテーションのためのメタデータ協調型マルチモーダルセグメンテーションネットワーク(MetaSegNet)を提案する。
一元的視覚データのみを使用する一般的なモデル構造とは異なり、自由なリモートセンシング画像メタデータから重要な特徴を抽出する。
画像エンコーダ,テキストエンコーダ,モーダルアテンション融合サブネットワークを構築し,画像とテキストの特徴を抽出し,画像とテキストのインタラクションを適用する。
論文 参考訳(メタデータ) (2023-12-20T03:16:34Z) - Remote Sensing Vision-Language Foundation Models without Annotations via
Ground Remote Alignment [61.769441954135246]
テキストアノテーションを使わずにリモートセンシング画像の視覚言語モデルを訓練する手法を提案する。
私たちの重要な洞察は、リモートセンシング画像と言語を接続するための仲介手段として、地上で撮影されたコロケーションのインターネットイメージを使用することです。
論文 参考訳(メタデータ) (2023-12-12T03:39:07Z) - RRSIS: Referring Remote Sensing Image Segmentation [25.538406069768662]
リモートセンシング画像から所望のオブジェクトをローカライズすることは、実用的な用途において非常に有用である。
与えられた表現が参照する対象を分割することを目的とした画像分割の参照は、自然画像において広範囲に研究されている。
本稿では、このギャップを埋めるため、リモートセンシング画像セグメンテーション(RRSIS)を紹介し、洞察に富んだ探索を行う。
論文 参考訳(メタデータ) (2023-06-14T16:40:19Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - SOAT: A Scene- and Object-Aware Transformer for Vision-and-Language
Navigation [57.12508968239015]
本研究は,トランスフォーマーを用いた視覚言語ナビゲーション (VLN) エージェントを提案する。
シーン分類ネットワークとオブジェクト検出器の2つの異なるビジュアルエンコーダを使用する。
シーン機能は、オブジェクトレベルの処理をサポートする高レベルなコンテキスト情報を提供する。
論文 参考訳(メタデータ) (2021-10-27T03:29:34Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。