論文の概要: LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
- arxiv url: http://arxiv.org/abs/2402.02544v4
- Date: Tue, 16 Jul 2024 01:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 23:30:59.731902
- Title: LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
- Title(参考訳): LHRS-Bot:VGI強化大規模マルチモーダル言語モデルを用いたリモートセンシング
- Authors: Dilxat Muhtar, Zhenshi Li, Feng Gu, Xueliang Zhang, Pengfeng Xiao,
- Abstract要約: 本稿では,新しい視覚言語アライメント戦略とカリキュラム学習手法を通じて,RS画像理解に適したMLLMであるLHRS-Botを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
- 参考スコア(独自算出の注目度): 10.280417075859141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The revolutionary capabilities of large language models (LLMs) have paved the way for multimodal large language models (MLLMs) and fostered diverse applications across various specialized domains. In the remote sensing (RS) field, however, the diverse geographical landscapes and varied objects in RS imagery are not adequately considered in recent MLLM endeavors. To bridge this gap, we construct a large-scale RS image-text dataset, LHRS-Align, and an informative RS-specific instruction dataset, LHRS-Instruct, leveraging the extensive volunteered geographic information (VGI) and globally available RS images. Building on this foundation, we introduce LHRS-Bot, an MLLM tailored for RS image understanding through a novel multi-level vision-language alignment strategy and a curriculum learning method. Additionally, we introduce LHRS-Bench, a benchmark for thoroughly evaluating MLLMs' abilities in RS image understanding. Comprehensive experiments demonstrate that LHRS-Bot exhibits a profound understanding of RS images and the ability to perform nuanced reasoning within the RS domain.
- Abstract(参考訳): 大規模言語モデル(LLM)の革命的能力は、マルチモーダルな大規模言語モデル(MLLM)の道を切り開き、様々な専門分野にまたがる多様な応用を育んでいる。
しかし、リモートセンシング(RS)分野では、最近のMLLMでは、多様な地形やRS画像の様々な物体が適切に考慮されていない。
このギャップを埋めるために、大規模なRS画像テキストデータセットであるLHRS-Alignと情報的RS固有の命令データセットであるLHRS-Instructを構築し、大規模なボランティア地理情報(VGI)とグローバルに利用可能なRS画像を活用する。
この基盤の上に構築されたLHRS-Botは、新しい多段階視覚言語アライメント戦略とカリキュラム学習手法により、RS画像理解に適したMLLMである。
さらに、RS画像理解におけるMLLMの能力を徹底的に評価するベンチマークであるLHRS-Benchを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
関連論文リスト
- RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - LHRS-Bot-Nova: Improved Multimodal Large Language Model for Remote Sensing Vision-Language Interpretation [21.91073335335992]
リモートセンシング(RS)画像の理解に特化したMLLMであるLHRS-Bot-Novaを紹介する。
LHRS-Bot-Novaは拡張ビジョンエンコーダと新しいブリッジ層を備えており、効率的なビジュアル圧縮と言語ビジョンアライメントを実現している。
RS画像理解タスクにおけるLHRS-Bot-Novaの優れた性能を示す大規模な実験を行った。
論文 参考訳(メタデータ) (2024-11-14T09:23:40Z) - CDChat: A Large Multimodal Model for Remote Sensing Change Description [82.51779045271437]
LMMの微調整に利用できる変更記述命令データセットを導入し、RS画像のより優れた変更記述を提供する。
我々は,LLaVA-1.5モデルを若干の修正を加えて,変更記述命令データセットを微調整し,良好な性能が得られることを示した。
論文 参考訳(メタデータ) (2024-09-24T17:31:02Z) - RSTeller: Scaling Up Visual Language Modeling in Remote Sensing with Rich Linguistic Semantics from Openly Available Data and Large Language Models [5.981597754991408]
我々は,Google Earth Engine (GEE) プラットフォームから取得した画像に対して,平易な OpenStreetMap (OSM) データから,意味的に豊富なキャプションを持つマルチモーダルデータセットを大規模に生成するワークフローを提案する。
本稿では,13万以上のRS画像からなるマルチモーダルデータセットであるRSTellerについて述べる。
論文 参考訳(メタデータ) (2024-08-27T02:45:26Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing [12.9701635989222]
平易な言語命令だけで複雑なリモートセンシング(RS)シナリオで情報を提供するのは難しい。
EarthMarkerは、視覚的なプロンプトを上昇させることで、画像、領域、点レベルのRS画像を解釈することができる。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Scaling Efficient Masked Image Modeling on Large Remote Sensing Dataset [66.15872913664407]
本稿では、大規模RSデータセットの作成とMIMの効率的なアプローチを特徴とする、RSモデルのための新しい事前学習パイプラインを提案する。
我々は、利用可能なRSデータセットを収集し、排他的、スライシング、復号化を通じてそれらを処理することで、OptoRS-13Mという高品質なデータセットをキュレートした。
実験により,OCR-13Mは分類,検出,セグメンテーション性能を著しく向上し,SelectiveMAEは2回以上のトレーニング効率を向上させることが示された。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor
Image Comprehension in Remote Sensing Domain [11.902077343294707]
マルチモーダル大言語モデル(MLLM)は、自然画像領域における視覚および視覚言語タスクにおいて顕著な成功を収めている。
このギャップを埋めるために,EarthGPTと呼ばれる先駆的なMLLMが,様々なマルチセンサRS解釈タスクを統一的に統合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T08:57:48Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。