論文の概要: EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor
Image Comprehension in Remote Sensing Domain
- arxiv url: http://arxiv.org/abs/2401.16822v3
- Date: Fri, 8 Mar 2024 15:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-11 22:46:52.319922
- Title: EarthGPT: A Universal Multi-modal Large Language Model for Multi-sensor
Image Comprehension in Remote Sensing Domain
- Title(参考訳): EarthGPT:リモートセンシング領域におけるマルチセンサ画像理解のための汎用マルチモーダル大言語モデル
- Authors: Wei Zhang, Miaoxin Cai, Tong Zhang, Yin Zhuang, Xuerui Mao
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、自然画像領域における視覚および視覚言語タスクにおいて顕著な成功を収めている。
このギャップを埋めるために,EarthGPTと呼ばれる先駆的なMLLMが,様々なマルチセンサRS解釈タスクを統一的に統合する手法を提案する。
- 参考スコア(独自算出の注目度): 11.902077343294707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models (MLLMs) have demonstrated remarkable
success in vision and visual-language tasks within the natural image domain.
Owing to the significant diversities between the natural and remote sensing
(RS) images, the development of MLLMs in the RS domain is still in the infant
stage. To fill the gap, a pioneer MLLM named EarthGPT integrating various
multi-sensor RS interpretation tasks uniformly is proposed in this paper for
universal RS image comprehension. In EarthGPT, three key techniques are
developed including a visual-enhanced perception mechanism, a cross-modal
mutual comprehension approach, and a unified instruction tuning method for
multi-sensor multi-task in the RS domain. More importantly, a dataset named
MMRS-1M featuring large-scale multi-sensor multi-modal RS instruction-following
is constructed, comprising over 1M image-text pairs based on 34 existing
diverse RS datasets and including multi-sensor images such as optical,
synthetic aperture radar (SAR), and infrared. The MMRS-1M dataset addresses the
drawback of MLLMs on RS expert knowledge and stimulates the development of
MLLMs in the RS domain. Extensive experiments are conducted, demonstrating the
EarthGPT's superior performance in various RS visual interpretation tasks
compared with the other specialist models and MLLMs, proving the effectiveness
of the proposed EarthGPT and offering a versatile paradigm for open-set
reasoning tasks.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、自然画像領域における視覚および視覚言語タスクにおいて顕著な成功を収めている。
自然とリモートセンシング(RS)画像の間に大きな多様性があるため、RSドメインにおけるMLLMの開発はまだ幼児期にある。
このギャップを埋めるために,多様なマルチセンサRS解釈タスクを統一的に統合したEarthGPTという先駆的なMLLMを提案する。
earthgptでは、視覚強調知覚機構、クロスモーダル相互理解アプローチ、rsドメインにおけるマルチセンサマルチタスクのための統一命令チューニング手法を含む3つの鍵となる手法が開発されている。
さらに、大規模マルチセンサマルチモーダルRS命令追従を特徴とするMMRS-1Mというデータセットを構築し、34の既存RSデータセットに基づいて100万以上の画像テキストペアを構成し、光学、合成開口レーダ(SAR)、赤外線などのマルチセンサ画像を含む。
MMRS-1Mデータセットは、RSの専門家知識に基づくMLLMの欠点に対処し、RSドメインにおけるMLLMの開発を刺激する。
大規模な実験を行い、他の専門モデルやMLLMと比較して様々な視覚的解釈タスクにおいて、EarthGPTの優れた性能を示し、提案したEarthGPTの有効性を証明し、オープンセット推論タスクに汎用的なパラダイムを提供する。
関連論文リスト
- RS-Mamba for Large Remote Sensing Image Dense Prediction [58.12667617617306]
本稿では,大規模なVHRリモートセンシング画像における高密度予測タスクに対するリモートセンシング・マンバ(RSM)を提案する。
RSMは、線形複雑度でリモートセンシング画像のグローバルなコンテキストを捉えるように設計されている。
我々のモデルは、大規模なリモートセンシング画像の変換器ベースモデルよりも効率と精度がよい。
論文 参考訳(メタデータ) (2024-04-03T12:06:01Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Browse and Concentrate: Comprehending Multimodal Content via prior-LLM
Context Fusion [73.33837430365065]
LLMを事前訓練された視覚モデルに組み込んだマルチモーダル大規模言語モデル(MLLM)は、近年、多様な視覚言語タスクにまたがる印象的なパフォーマンスを実証している。
しかし、複数の画像を含む文脈を理解するには不十分である。
本稿では,2つのフェーズ・パラダイムであるブラウズ・アンド・集中型を提案し,より深いマルチモーダルコンテキスト融合を実現する。
論文 参考訳(メタデータ) (2024-02-19T14:59:07Z) - LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model [10.280417075859141]
本稿では,新しい視覚言語アライメント戦略とカリキュラム学習手法を通じて,RS画像理解に適したMLLMであるLHRS-Botを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
論文 参考訳(メタデータ) (2024-02-04T15:46:43Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - SpectralGPT: Spectral Remote Sensing Foundation Model [60.023956954916414]
SpectralGPTという名前のユニバーサルRS基盤モデルは、新しい3D生成事前学習変換器(GPT)を用いてスペクトルRS画像を処理するために構築されている。
既存の基礎モデルと比較して、SpectralGPTは、様々なサイズ、解像度、時系列、領域をプログレッシブトレーニング形式で対応し、広範なRSビッグデータのフル活用を可能にする。
我々の評価では、事前訓練されたスペクトルGPTモデルによる顕著な性能向上が強調され、地球科学分野におけるスペクトルRSビッグデータ応用の進展に有意な可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-13T07:09:30Z) - Feature Guided Masked Autoencoder for Self-supervised Learning in Remote
Sensing [16.683132793313693]
Masked AutoEncoder (MAE) はリモートセンシングにおける視覚トランスフォーマーの事前訓練に広く注目を集めている。
本研究では,多スペクトル画像に対する向き付けされた粒度(HOG)と正規化差分指標(NDI)の組合せを再構成し,SAR画像のHOGを再構成する特徴誘導マスク付きオートエンコーダ(FG-MAE)を提案する。
論文 参考訳(メタデータ) (2023-10-28T09:43:13Z) - Exploring a Fine-Grained Multiscale Method for Cross-Modal Remote
Sensing Image Retrieval [21.05804942940532]
クロスモーダルなテキスト画像検索は、フレキシブルな入力と効率的なクエリの利点により、広く注目を集めている。
RSマルチモーダル検索タスクにおけるマルチスケール不足とターゲット冗長性の問題に対処するため、新しい非対称マルチモーダル特徴マッチングネットワーク(AMFMN)を考案した。
本モデルは,マルチスケールな特徴入力に適応し,マルチソース検索手法を好んで,冗長な特徴を動的にフィルタすることができる。
論文 参考訳(メタデータ) (2022-04-21T03:53:19Z) - Multi-Content Complementation Network for Salient Object Detection in
Optical Remote Sensing Images [108.79667788962425]
光リモートセンシング画像(RSI-SOD)における有能な物体検出は、いまだに課題である。
本稿では, RSI-SOD における複数コンテンツの相補性を検討するために, MCCNet (Multi-Content Complementation Network) を提案する。
MCCMでは、前景機能、エッジ機能、背景機能、グローバル画像レベル機能など、RSI-SODにとって重要な複数の機能について検討する。
論文 参考訳(メタデータ) (2021-12-02T04:46:40Z) - Multi-Contrast MRI Super-Resolution via a Multi-Stage Integration
Network [31.591461062282384]
超解像(SR)はMRIの画質向上に重要な役割を担っている
MRIはマルチコントラスト画像を生成し、軟部組織の明瞭な表示を提供する。
本研究では,マルチコントラストMRI SRのための多段階統合ネットワーク (MINet) を提案する。
論文 参考訳(メタデータ) (2021-05-19T06:47:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。