論文の概要: GeoChat: Grounded Large Vision-Language Model for Remote Sensing
- arxiv url: http://arxiv.org/abs/2311.15826v1
- Date: Fri, 24 Nov 2023 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 15:04:52.736294
- Title: GeoChat: Grounded Large Vision-Language Model for Remote Sensing
- Title(参考訳): geochat: リモートセンシングのための大視野言語モデル
- Authors: Kartik Kuckreja, Muhammad Sohail Danish, Muzammal Naseer, Abhijit Das,
Salman Khan, Fahad Shahbaz Khan
- Abstract要約: 提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
- 参考スコア(独自算出の注目度): 65.78360056991247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (VLMs) have shown great
promise in natural image domains, allowing users to hold a dialogue about given
visual content. However, such general-domain VLMs perform poorly for Remote
Sensing (RS) scenarios, leading to inaccurate or fabricated information when
presented with RS domain-specific queries. Such a behavior emerges due to the
unique challenges introduced by RS imagery. For example, to handle
high-resolution RS imagery with diverse scale changes across categories and
many small objects, region-level reasoning is necessary alongside holistic
scene interpretation. Furthermore, the lack of domain-specific multimodal
instruction following data as well as strong backbone models for RS make it
hard for the models to align their behavior with user queries. To address these
limitations, we propose GeoChat - the first versatile remote sensing VLM that
offers multitask conversational capabilities with high-resolution RS images.
Specifically, GeoChat can not only answer image-level queries but also accepts
region inputs to hold region-specific dialogue. Furthermore, it can visually
ground objects in its responses by referring to their spatial coordinates. To
address the lack of domain-specific datasets, we generate a novel RS multimodal
instruction-following dataset by extending image-text pairs from existing
diverse RS datasets. We establish a comprehensive benchmark for RS multitask
conversations and compare with a number of baseline methods. GeoChat
demonstrates robust zero-shot performance on various RS tasks, e.g., image and
region captioning, visual question answering, scene classification, visually
grounded conversations and referring detection. Our code is available at
https://github.com/mbzuai-oryx/geochat.
- Abstract(参考訳): 大規模視覚言語モデル(vlms)の最近の進歩は、自然画像領域において大きな期待を示しており、ユーザーは所定の視覚コンテンツについて対話することができる。
しかし、そのような汎用ドメインVLMはリモートセンシング(RS)のシナリオでは不十分であり、RSドメイン固有のクエリを提示すると不正確な情報や偽情報が発生する。
このような行動は、RS画像によってもたらされるユニークな課題によって現れる。
例えば、カテゴリや多数の小さなオブジェクトにわたる多様なスケール変化を伴う高解像度RS画像を扱うためには、全体論的シーン解釈とともに、地域レベルの推論が必要である。
さらに、データに続くドメイン固有のマルチモーダル命令の欠如とrsの強力なバックボーンモデルにより、モデルがユーザのクエリと協調することを困難にしている。
これらの制約に対処するため、我々はGeoChatを提案する。GeoChatは、マルチタスク対話機能と高解像度RS画像を提供する初の汎用リモートセンシングVLMである。
特にgeochatは、画像レベルの問い合わせに答えるだけでなく、地域固有の対話を保持するために地域入力を受け付けることができる。
さらに,空間座標を参照することにより,物体の応答を視覚的にグラウンドすることができる。
ドメイン固有のデータセットの欠如に対処するため、既存の多様なRSデータセットから画像テキストペアを拡張することで、新しいRSマルチモーダル命令フォローデータセットを生成する。
rsマルチタスク会話の総合ベンチマークを作成し,いくつかのベースライン手法との比較を行った。
geochatは、画像や領域のキャプション、視覚的な質問応答、シーン分類、視覚的な接地された会話、参照検出など、さまざまなrsタスクで堅牢なゼロショットパフォーマンスを示す。
私たちのコードはhttps://github.com/mbzuai-oryx/geochatで利用可能です。
関連論文リスト
- Large Language Models for Captioning and Retrieving Remote Sensing
Images [4.499596985198142]
RS-CapRetはリモートセンシングタスクのためのVision and Languageメソッドである。
リモートセンシング画像の記述を生成し、テキスト記述から画像を取得することができる。
論文 参考訳(メタデータ) (2024-02-09T15:31:01Z) - LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal
Language Model [10.280417075859141]
我々は,新しい多段階視覚言語アライメント戦略とカリキュラム学習手法を通じて,RS画像理解に適したMLLMであるLHRS-Botを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
論文 参考訳(メタデータ) (2024-02-04T15:46:43Z) - SkyEyeGPT: Unifying Remote Sensing Vision-Language Tasks via Instruction
Tuning with Large Language Model [12.19132018279148]
視覚言語理解に特化して設計された多モード大言語モデルであるSkyEyeGPTを紹介する。
シンプルだが効果的なデザインで、SkyEyeGPTは、余分なエンコードモジュールを必要とせずに、驚くほど異なるタスクで驚くほどうまく機能する。
RSビジョン言語タスクのための8つのデータセットの実験は、画像レベルおよび領域レベルのタスクにおいてSkyEyeGPTが優れていることを示す。
論文 参考訳(メタデータ) (2024-01-18T04:10:20Z) - GLaMM: Pixel Grounding Large Multimodal Model [59.84473815326636]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - RS5M and GeoRSCLIP: A Large Scale Vision-Language Dataset and A Large
Vision-Language Model for Remote Sensing [26.71560933421903]
我々は、DVLM(Domain Pre-trained Vision-Language Model)を含む新しいフレームワークを提案する。
リモートセンシング(RS)分野における画像とテキストのペア化データセットであるRS5Mについて述べる。
論文 参考訳(メタデータ) (2023-06-20T05:30:59Z) - RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing
Data [14.742224345061487]
リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題について紹介する。
RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。
本研究では,RSVGの大規模ベンチマークデータセットを構築し,RSVGタスクのディープラーニングモデルについて検討する。
論文 参考訳(メタデータ) (2022-10-23T07:08:22Z) - Multimodal Dialogue State Tracking [97.25466640240619]
Video-Dialogue Transformer Network (VDTN)は、ビデオと対話の間のコンテキスト依存を学習し、マルチモーダル対話状態を生成する。
VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。
論文 参考訳(メタデータ) (2022-06-16T03:18:42Z) - An Empirical Study of Remote Sensing Pretraining [117.90699699469639]
本研究では,空中画像におけるリモートセンシング事前訓練(RSP)の実証的研究を行った。
RSPは、シーン認識タスクで特有のパフォーマンスを提供するのに役立つ。
RSPは、従来のイメージネットがRS画像に事前学習する際のデータ格差を緩和するが、それでもタスクの相違に悩まされる可能性がある。
論文 参考訳(メタデータ) (2022-04-06T13:38:11Z) - On Creating Benchmark Dataset for Aerial Image Interpretation: Reviews,
Guidances and Million-AID [57.71601467271486]
本稿では,RS画像解釈に適したベンチマークデータセットを効率的に作成する方法の問題点について論じる。
本稿ではまず,文献計測によるRS画像解釈のためのインテリジェントアルゴリズム開発における課題について分析する。
提案したガイダンスに続いて、RSイメージデータセットの構築例、すなわち、新しい大規模ベンチマークデータセットであるMario-AIDも提供する。
論文 参考訳(メタデータ) (2020-06-22T17:59:00Z) - CrossWOZ: A Large-Scale Chinese Cross-Domain Task-Oriented Dialogue
Dataset [58.910961297314415]
CrossWOZは、中国のCross-Domain Wizard-of-Ozタスク指向データセットとしては初めての大規模である。
6K対話セッションと、ホテル、レストラン、アトラクション、メトロ、タクシーを含む5つのドメインの102K発話が含まれている。
論文 参考訳(メタデータ) (2020-02-27T03:06:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。