論文の概要: GeoChat: Grounded Large Vision-Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2311.15826v1
- Date: Fri, 24 Nov 2023 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:04:52.736294
- Title: GeoChat: Grounded Large Vision-Language Model for Remote Sensing
- Title(参考訳): geochat: リモートセンシングのための大視野言語モデル
- Authors: Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das,
Salman Khan, Fahad Shahbaz Khan
- Abstract要約: 提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 65.78360056991247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (VLMs) have shown great
promise in natural image domains, allowing users to hold a dialogue about given
visual content. However, such general-domain VLMs perform poorly for Remote
Sensing (RS) scenarios, leading to inaccurate or fabricated information when
presented with RS domain-specific queries. Such a behavior emerges due to the
unique challenges introduced by RS imagery. For example, to handle
high-resolution RS imagery with diverse scale changes across categories and
many small objects, region-level reasoning is necessary alongside holistic
scene interpretation. Furthermore, the lack of domain-specific multimodal
instruction following data as well as strong backbone models for RS make it
hard for the models to align their behavior with user queries. To address these
limitations, we propose GeoChat - the first versatile remote sensing VLM that
offers multitask conversational capabilities with high-resolution RS images.
Specifically, GeoChat can not only answer image-level queries but also accepts
region inputs to hold region-specific dialogue. Furthermore, it can visually
ground objects in its responses by referring to their spatial coordinates. To
address the lack of domain-specific datasets, we generate a novel RS multimodal
instruction-following dataset by extending image-text pairs from existing
diverse RS datasets. We establish a comprehensive benchmark for RS multitask
conversations and compare with a number of baseline methods. GeoChat
demonstrates robust zero-shot performance on various RS tasks, e.g., image and
region captioning, visual question answering, scene classification, visually
grounded conversations and referring detection. Our code is available at
https://github.com/mbzuai-oryx/geochat.
- Abstract(参考訳): 大規模視覚言語モデル(vlms)の最近の進歩は、自然画像領域において大きな期待を示しており、ユーザーは所定の視覚コンテンツについて対話することができる。
しかし、そのような汎用ドメインVLMはリモートセンシング(RS)のシナリオでは不十分であり、RSドメイン固有のクエリを提示すると不正確な情報や偽情報が発生する。
このような行動は、RS画像によってもたらされるユニークな課題によって現れる。
例えば、カテゴリや多数の小さなオブジェクトにわたる多様なスケール変化を伴う高解像度RS画像を扱うためには、全体論的シーン解釈とともに、地域レベルの推論が必要である。
さらに、データに続くドメイン固有のマルチモーダル命令の欠如とrsの強力なバックボーンモデルにより、モデルがユーザのクエリと協調することを困難にしている。
これらの制約に対処するため、我々はGeoChatを提案する。GeoChatは、マルチタスク対話機能と高解像度RS画像を提供する初の汎用リモートセンシングVLMである。
特にgeochatは、画像レベルの問い合わせに答えるだけでなく、地域固有の対話を保持するために地域入力を受け付けることができる。
さらに,空間座標を参照することにより,物体の応答を視覚的にグラウンドすることができる。
ドメイン固有のデータセットの欠如に対処するため、既存の多様なRSデータセットから画像テキストペアを拡張することで、新しいRSマルチモーダル命令フォローデータセットを生成する。
rsマルチタスク会話の総合ベンチマークを作成し,いくつかのベースライン手法との比較を行った。
geochatは、画像や領域のキャプション、視覚的な質問応答、シーン分類、視覚的な接地された会話、参照検出など、さまざまなrsタスクで堅牢なゼロショットパフォーマンスを示す。
私たちのコードはhttps://github.com/mbzuai-oryx/geochatで利用可能です。
関連論文リスト
- GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding [31.01378033872341]
GeoGroundは、HBB、OBB、マスクRSビジュアルグラウンドタスクのサポートを統合する新しいフレームワークである。
モデルトレーニングを支援するために,161kの画像テキストペアを含む大規模RS視覚指示追従データセットrefGeoを提案する。
論文 参考訳(メタデータ) (2024-11-16T05:12:11Z) - CDChat: A Large Multimodal Model for Remote Sensing Change Description [82.51779045271437]
LMMの微調整に利用できる変更記述命令データセットを導入し、RS画像のより優れた変更記述を提供する。
我々は,LLaVA-1.5モデルを若干の修正を加えて,変更記述命令データセットを微調整し,良好な性能が得られることを示した。
論文 参考訳(メタデータ) (2024-09-24T17:31:02Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [3.178739428363249]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,100万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension [12.9701635989222]
EarthMarkerと呼ばれる最初の視覚的プロンプトモデルが提案され、画像レベル、領域レベル、ポイントレベルRSの解釈に優れる。
多様な多粒度視覚知覚能力を持つEarthMarkerを実現するために、クロスドメイン位相学習戦略を開発した。
RSの視覚的プロンプトデータの欠如に対処するため、マルチモーダルな視覚的プロンプト命令を備えたRSVPというデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Evaluating Tool-Augmented Agents in Remote Sensing Platforms [1.8434042562191815]
既存のベンチマークでは、事前に定義された画像とテキストのデータペアに対して質問応答の入力テンプレートを仮定する。
実際のUIプラットフォーム上で,言語,視覚,クリックベースのアクションの長いシーケンスをキャプチャするベンチマークであるGeoLLM-QAを提案する。
論文 参考訳(メタデータ) (2024-04-23T20:37:24Z) - RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis [48.06425266787859]
本稿では,リモートセンシング画像解析のためのVersatile and Honest Vision Language Model (VHM) を提案する。
VHMは、リッチコンテンツキャプション(VersaD)を備えた大規模リモートセンシング画像テキストデータセットと、事実と偽造的質問(HnstD)の両方からなる正直な命令データセット上に構築されている。
実験では,VHMはシーン分類,視覚的質問応答,視覚的接地といった共通タスクにおいて,様々な視覚言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-03-29T14:50:43Z) - Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。