論文の概要: GeoChat: Grounded Large Vision-Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2311.15826v1
- Date: Fri, 24 Nov 2023 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:04:52.736294
- Title: GeoChat: Grounded Large Vision-Language Model for Remote Sensing
- Title(参考訳): geochat: リモートセンシングのための大視野言語モデル
- Authors: Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das,
Salman Khan, Fahad Shahbaz Khan
- Abstract要約: 提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 65.78360056991247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (VLMs) have shown great
promise in natural image domains, allowing users to hold a dialogue about given
visual content. However, such general-domain VLMs perform poorly for Remote
Sensing (RS) scenarios, leading to inaccurate or fabricated information when
presented with RS domain-specific queries. Such a behavior emerges due to the
unique challenges introduced by RS imagery. For example, to handle
high-resolution RS imagery with diverse scale changes across categories and
many small objects, region-level reasoning is necessary alongside holistic
scene interpretation. Furthermore, the lack of domain-specific multimodal
instruction following data as well as strong backbone models for RS make it
hard for the models to align their behavior with user queries. To address these
limitations, we propose GeoChat - the first versatile remote sensing VLM that
offers multitask conversational capabilities with high-resolution RS images.
Specifically, GeoChat can not only answer image-level queries but also accepts
region inputs to hold region-specific dialogue. Furthermore, it can visually
ground objects in its responses by referring to their spatial coordinates. To
address the lack of domain-specific datasets, we generate a novel RS multimodal
instruction-following dataset by extending image-text pairs from existing
diverse RS datasets. We establish a comprehensive benchmark for RS multitask
conversations and compare with a number of baseline methods. GeoChat
demonstrates robust zero-shot performance on various RS tasks, e.g., image and
region captioning, visual question answering, scene classification, visually
grounded conversations and referring detection. Our code is available at
https://github.com/mbzuai-oryx/geochat.
- Abstract(参考訳): 大規模視覚言語モデル(vlms)の最近の進歩は、自然画像領域において大きな期待を示しており、ユーザーは所定の視覚コンテンツについて対話することができる。
しかし、そのような汎用ドメインVLMはリモートセンシング(RS)のシナリオでは不十分であり、RSドメイン固有のクエリを提示すると不正確な情報や偽情報が発生する。
このような行動は、RS画像によってもたらされるユニークな課題によって現れる。
例えば、カテゴリや多数の小さなオブジェクトにわたる多様なスケール変化を伴う高解像度RS画像を扱うためには、全体論的シーン解釈とともに、地域レベルの推論が必要である。
さらに、データに続くドメイン固有のマルチモーダル命令の欠如とrsの強力なバックボーンモデルにより、モデルがユーザのクエリと協調することを困難にしている。
これらの制約に対処するため、我々はGeoChatを提案する。GeoChatは、マルチタスク対話機能と高解像度RS画像を提供する初の汎用リモートセンシングVLMである。
特にgeochatは、画像レベルの問い合わせに答えるだけでなく、地域固有の対話を保持するために地域入力を受け付けることができる。
さらに,空間座標を参照することにより,物体の応答を視覚的にグラウンドすることができる。
ドメイン固有のデータセットの欠如に対処するため、既存の多様なRSデータセットから画像テキストペアを拡張することで、新しいRSマルチモーダル命令フォローデータセットを生成する。
rsマルチタスク会話の総合ベンチマークを作成し,いくつかのベースライン手法との比較を行った。
geochatは、画像や領域のキャプション、視覚的な質問応答、シーン分類、視覚的な接地された会話、参照検出など、さまざまなrsタスクで堅牢なゼロショットパフォーマンスを示す。
私たちのコードはhttps://github.com/mbzuai-oryx/geochatで利用可能です。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - GeoGround: A Unified Large Vision-Language Model for Remote Sensing Visual Grounding [31.01378033872341]
GeoGroundは、HBB、OBB、マスクRSビジュアルグラウンドタスクのサポートを統合する新しいフレームワークである。
モデルトレーニングを支援するために,161kの画像テキストペアを含む大規模RS視覚指示追従データセットrefGeoを提案する。
論文 参考訳(メタデータ) (2024-11-16T05:12:11Z) - CDChat: A Large Multimodal Model for Remote Sensing Change Description [82.51779045271437]
LMMの微調整に利用できる変更記述命令データセットを導入し、RS画像のより優れた変更記述を提供する。
我々は,LLaVA-1.5モデルを若干の修正を加えて,変更記述命令データセットを微調整し,良好な性能が得られることを示した。
論文 参考訳(メタデータ) (2024-09-24T17:31:02Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [5.981597754991408]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,13万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing [12.9701635989222]
平易な言語命令だけで複雑なリモートセンシング(RS)シナリオで情報を提供するのは難しい。
EarthMarkerは、視覚的なプロンプトを上昇させることで、画像、領域、点レベルのRS画像を解釈することができる。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis [48.06425266787859]
本稿では,リモートセンシング画像解析のためのVersatile and Honest Vision Language Model (VHM) を提案する。
VHMは、リッチコンテンツキャプション(VersaD)を備えた大規模リモートセンシング画像テキストデータセットと、事実と偽造的質問(HnstD)の両方からなる正直な命令データセット上に構築されている。
実験では,VHMはシーン分類,視覚的質問応答,視覚的接地といった共通タスクにおいて,様々な視覚言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-03-29T14:50:43Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。