論文の概要: MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description
- arxiv url: http://arxiv.org/abs/2406.04716v1
- Date: Fri, 7 Jun 2024 07:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:59:58.612975
- Title: MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description
- Title(参考訳): MGIMM:属性誘導型リモートセンシング画像詳細記述のためのマルチグラニュリティインストラクションマルチモーダルモデル
- Authors: Cong Yang, Zuchao Li, Lefei Zhang,
- Abstract要約: 本稿では,リモートセンシング画像記述のための属性誘導型textbfMulti-Granularity Instruction Multimodal Model (MGIMM)を提案する。
MGIMMはマルチモーダルモデルで視覚領域と対応するテキスト属性の一貫性を学習する。
我々は,38,320個の領域属性対と23,463個の画像詳細記述対からなるデータセットを構築した。
- 参考スコア(独自算出の注目度): 44.033701878979805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large multimodal models have built a bridge from visual to textual information, but they tend to underperform in remote sensing scenarios. This underperformance is due to the complex distribution of objects and the significant scale differences among targets in remote sensing images, leading to visual ambiguities and insufficient descriptions by these multimodal models. Moreover, the lack of multimodal fine-tuning data specific to the remote sensing field makes it challenging for the model's behavior to align with user queries. To address these issues, this paper proposes an attribute-guided \textbf{Multi-Granularity Instruction Multimodal Model (MGIMM)} for remote sensing image detailed description. MGIMM guides the multimodal model to learn the consistency between visual regions and corresponding text attributes (such as object names, colors, and shapes) through region-level instruction tuning. Then, with the multimodal model aligned on region-attribute, guided by multi-grain visual features, MGIMM fully perceives both region-level and global image information, utilizing large language models for comprehensive descriptions of remote sensing images. Due to the lack of a standard benchmark for generating detailed descriptions of remote sensing images, we construct a dataset featuring 38,320 region-attribute pairs and 23,463 image-detailed description pairs. Compared with various advanced methods on this dataset, the results demonstrate the effectiveness of MGIMM's region-attribute guided learning approach. Code can be available at https://github.com/yangcong356/MGIMM.git
- Abstract(参考訳): 近年、大規模なマルチモーダルモデルでは、視覚情報からテキスト情報へのブリッジが構築されているが、リモートセンシングのシナリオでは性能が劣る傾向にある。
このアンダーパフォーマンスは、オブジェクトの複雑な分布と、リモートセンシング画像におけるターゲット間の大きなスケール差により、視覚的曖昧さとこれらのマルチモーダルモデルによる説明不足につながる。
さらに、リモートセンシングフィールドに特有のマルチモーダル微調整データの欠如により、モデルの動作がユーザクエリと整合することを困難にしている。
これらの課題に対処するために,リモートセンシング画像の詳細な記述のための属性誘導型 \textbf{Multi-Granularity Instruction Multimodal Model (MGIMM) を提案する。
MGIMMは、視覚領域と対応するテキスト属性(オブジェクト名、色、形状など)の整合性を学ぶためのマルチモーダルモデルである。
次に,MGIMMは,地域レベルの画像情報とグローバルな画像情報の両方を十分に認識し,リモートセンシング画像の包括的記述に大規模な言語モデルを利用する。
リモートセンシング画像の詳細な記述を生成するための標準ベンチマークが欠如しているため,38,320の地域属性ペアと23,463の画像詳細記述ペアからなるデータセットを構築した。
このデータセットの様々な先進的手法と比較して,MGIMMの地域属性学習手法の有効性を実証した。
コードはhttps://github.com/yangcong356/MGIMM.gitで入手できる。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - MMM-RS: A Multi-modal, Multi-GSD, Multi-scene Remote Sensing Dataset and Benchmark for Text-to-Image Generation [25.252173311925027]
マルチモーダル,マルチGSD,マルチシーンリモートセンシング(MMM-RS)データセットと,多様なリモートセンシングシナリオにおけるテキスト・ツー・イメージ生成のためのベンチマークを提案する。
大規模な事前学習型視覚言語モデルを用いて、テキストプロンプトを自動出力し、手作りの修正を行う。
広範囲な手動スクリーニングと修正アノテーションにより、最終的に約2100万のテキストイメージペアからなるMMM-RSデータセットを得る。
論文 参考訳(メタデータ) (2024-10-26T11:19:07Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - GroundingGPT:Language Enhanced Multi-modal Grounding Model [15.44099961048236]
言語拡張型マルチモーダルグラウンドモデルである GroundingGPT を提案する。
提案モデルでは,入力中の局所情報の詳細な理解を求めるタスクを抽出する。
ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。
論文 参考訳(メタデータ) (2024-01-11T17:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。