論文の概要: LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
- arxiv url: http://arxiv.org/abs/2402.02544v4
- Date: Tue, 16 Jul 2024 01:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 23:30:59.731902
- Title: LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model
- Title(参考訳): LHRS-Bot:VGI強化大規模マルチモーダル言語モデルを用いたリモートセンシング
- Authors: Dilxat Muhtar, Zhenshi Li, Feng Gu, Xueliang Zhang, Pengfeng Xiao,
- Abstract要約: 本稿では,新しい視覚言語アライメント戦略とカリキュラム学習手法を通じて,RS画像理解に適したMLLMであるLHRS-Botを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
- 参考スコア(独自算出の注目度): 10.280417075859141
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The revolutionary capabilities of large language models (LLMs) have paved the way for multimodal large language models (MLLMs) and fostered diverse applications across various specialized domains. In the remote sensing (RS) field, however, the diverse geographical landscapes and varied objects in RS imagery are not adequately considered in recent MLLM endeavors. To bridge this gap, we construct a large-scale RS image-text dataset, LHRS-Align, and an informative RS-specific instruction dataset, LHRS-Instruct, leveraging the extensive volunteered geographic information (VGI) and globally available RS images. Building on this foundation, we introduce LHRS-Bot, an MLLM tailored for RS image understanding through a novel multi-level vision-language alignment strategy and a curriculum learning method. Additionally, we introduce LHRS-Bench, a benchmark for thoroughly evaluating MLLMs' abilities in RS image understanding. Comprehensive experiments demonstrate that LHRS-Bot exhibits a profound understanding of RS images and the ability to perform nuanced reasoning within the RS domain.
- Abstract(参考訳): 大規模言語モデル(LLM)の革命的能力は、マルチモーダルな大規模言語モデル(MLLM)の道を切り開き、様々な専門分野にまたがる多様な応用を育んでいる。
しかし、リモートセンシング(RS)分野では、最近のMLLMでは、多様な地形やRS画像の様々な物体が適切に考慮されていない。
このギャップを埋めるために、大規模なRS画像テキストデータセットであるLHRS-Alignと情報的RS固有の命令データセットであるLHRS-Instructを構築し、大規模なボランティア地理情報(VGI)とグローバルに利用可能なRS画像を活用する。
この基盤の上に構築されたLHRS-Botは、新しい多段階視覚言語アライメント戦略とカリキュラム学習手法により、RS画像理解に適したMLLMである。
さらに、RS画像理解におけるMLLMの能力を徹底的に評価するベンチマークであるLHRS-Benchを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
関連論文リスト
- EarthMarker: Visual Prompt Learning for Region-level and Point-level Remote Sensing Imagery Comprehension [12.9701635989222]
EarthMarkerと呼ばれる最初の視覚的プロンプトモデルが提案され、画像レベル、領域レベル、ポイントレベルRSの解釈に優れる。
多様な多粒度視覚知覚能力を持つEarthMarkerを実現するために、クロスドメイン位相学習戦略を開発した。
RSの視覚的プロンプトデータの欠如に対処するため、マルチモーダルな視覚的プロンプト命令を備えたRSVPというデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Scaling Efficient Masked Autoencoder Learning on Large Remote Sensing Dataset [66.15872913664407]
本研究では,高効率なMIMトレーニングを実現するための大規模データセットである textbfRS-4M を紹介する。
本研究では,その意味的富度に基づいて選択されたパッチトークンのサブセットを動的にエンコードし,再構成する,効率的なMIM手法であるtextbfSelectiveMAEを提案する。
実験によると、SelectiveMAEはトレーニング効率を2.2-2.7倍に向上し、ベースラインMIMモデルの分類、検出、セグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2024-06-17T15:41:57Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor
Image Comprehension in Remote Sensing Domain [11.902077343294707]
マルチモーダル大言語モデル(MLLM)は、自然画像領域における視覚および視覚言語タスクにおいて顕著な成功を収めている。
このギャップを埋めるために,EarthGPTと呼ばれる先駆的なMLLMが,様々なマルチセンサRS解釈タスクを統一的に統合する手法を提案する。
論文 参考訳(メタデータ) (2024-01-30T08:57:48Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - Position-Enhanced Visual Instruction Tuning for Multimodal Large
Language Models [50.07056960586183]
MLLM(Multimodal Large Language Models)の機能を拡張するために, PVIT( Position-enhanced Visual Instruction Tuning)を提案する。
この統合により、MLLMの画像のより詳細な理解が促進される。
本稿では,提案モデルの優位性を示す定量的実験と定性解析の両方について述べる。
論文 参考訳(メタデータ) (2023-08-25T15:33:47Z) - RSGPT: A Remote Sensing Vision Language Model and Benchmark [7.279747655485913]
高品質なリモートセンシング画像キャプチャーデータセット(RSICap)を構築する。
このデータセットは、リッチで高品質な情報を備えた2,585の人称注釈付きキャプションからなる。
また、RSIEvalと呼ばれるベンチマーク評価データセットも提供します。
論文 参考訳(メタデータ) (2023-07-28T02:23:35Z) - CMID: A Unified Self-Supervised Learning Framework for Remote Sensing
Image Understanding [20.2438336674081]
CMID(Contrastive Mask Image Distillation)は,大域的意味分離性と局所空間認識性の両方で表現を学習することができる。
CMIDは畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の両方と互換性がある
CMIDを用いて事前訓練されたモデルは、複数のダウンストリームタスクにおける他の最先端SSLメソッドよりも優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-19T13:58:31Z) - RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing
Data [14.742224345061487]
リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題について紹介する。
RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。
本研究では,RSVGの大規模ベンチマークデータセットを構築し,RSVGタスクのディープラーニングモデルについて検討する。
論文 参考訳(メタデータ) (2022-10-23T07:08:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。