論文の概要: MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description
- arxiv url: http://arxiv.org/abs/2406.04716v1
- Date: Fri, 7 Jun 2024 07:53:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:59:58.612975
- Title: MGIMM: Multi-Granularity Instruction Multimodal Model for Attribute-Guided Remote Sensing Image Detailed Description
- Title(参考訳): MGIMM:属性誘導型リモートセンシング画像詳細記述のためのマルチグラニュリティインストラクションマルチモーダルモデル
- Authors: Cong Yang, Zuchao Li, Lefei Zhang,
- Abstract要約: 本稿では,リモートセンシング画像記述のための属性誘導型textbfMulti-Granularity Instruction Multimodal Model (MGIMM)を提案する。
MGIMMはマルチモーダルモデルで視覚領域と対応するテキスト属性の一貫性を学習する。
我々は,38,320個の領域属性対と23,463個の画像詳細記述対からなるデータセットを構築した。
- 参考スコア(独自算出の注目度): 44.033701878979805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large multimodal models have built a bridge from visual to textual information, but they tend to underperform in remote sensing scenarios. This underperformance is due to the complex distribution of objects and the significant scale differences among targets in remote sensing images, leading to visual ambiguities and insufficient descriptions by these multimodal models. Moreover, the lack of multimodal fine-tuning data specific to the remote sensing field makes it challenging for the model's behavior to align with user queries. To address these issues, this paper proposes an attribute-guided \textbf{Multi-Granularity Instruction Multimodal Model (MGIMM)} for remote sensing image detailed description. MGIMM guides the multimodal model to learn the consistency between visual regions and corresponding text attributes (such as object names, colors, and shapes) through region-level instruction tuning. Then, with the multimodal model aligned on region-attribute, guided by multi-grain visual features, MGIMM fully perceives both region-level and global image information, utilizing large language models for comprehensive descriptions of remote sensing images. Due to the lack of a standard benchmark for generating detailed descriptions of remote sensing images, we construct a dataset featuring 38,320 region-attribute pairs and 23,463 image-detailed description pairs. Compared with various advanced methods on this dataset, the results demonstrate the effectiveness of MGIMM's region-attribute guided learning approach. Code can be available at https://github.com/yangcong356/MGIMM.git
- Abstract(参考訳): 近年、大規模なマルチモーダルモデルでは、視覚情報からテキスト情報へのブリッジが構築されているが、リモートセンシングのシナリオでは性能が劣る傾向にある。
このアンダーパフォーマンスは、オブジェクトの複雑な分布と、リモートセンシング画像におけるターゲット間の大きなスケール差により、視覚的曖昧さとこれらのマルチモーダルモデルによる説明不足につながる。
さらに、リモートセンシングフィールドに特有のマルチモーダル微調整データの欠如により、モデルの動作がユーザクエリと整合することを困難にしている。
これらの課題に対処するために,リモートセンシング画像の詳細な記述のための属性誘導型 \textbf{Multi-Granularity Instruction Multimodal Model (MGIMM) を提案する。
MGIMMは、視覚領域と対応するテキスト属性(オブジェクト名、色、形状など)の整合性を学ぶためのマルチモーダルモデルである。
次に,MGIMMは,地域レベルの画像情報とグローバルな画像情報の両方を十分に認識し,リモートセンシング画像の包括的記述に大規模な言語モデルを利用する。
リモートセンシング画像の詳細な記述を生成するための標準ベンチマークが欠如しているため,38,320の地域属性ペアと23,463の画像詳細記述ペアからなるデータセットを構築した。
このデータセットの様々な先進的手法と比較して,MGIMMの地域属性学習手法の有効性を実証した。
コードはhttps://github.com/yangcong356/MGIMM.gitで入手できる。
関連論文リスト
- Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - MM-Interleaved: Interleaved Image-Text Generative Modeling via Multi-modal Feature Synchronizer [106.79844459065828]
本稿では,画像テキストデータのエンドツーエンド生成モデルであるMM-Interleavedを提案する。
マルチスケールおよびマルチイメージ機能同期モジュールを導入し、以前のコンテキストできめ細かい画像機能に直接アクセスできるようにする。
MM-Interleavedはマルチモーダルな指示に従って視覚的詳細を認識し、テキストと視覚の両方の条件に従って一貫した画像を生成する。
論文 参考訳(メタデータ) (2024-01-18T18:50:16Z) - GroundingGPT:Language Enhanced Multi-modal Grounding Model [15.44099961048236]
言語拡張型マルチモーダルグラウンドモデルである GroundingGPT を提案する。
提案モデルでは,入力中の局所情報の詳細な理解を求めるタスクを抽出する。
ビデオ内の画像や瞬間における特定の領域の正確な識別と位置決定を示す。
論文 参考訳(メタデータ) (2024-01-11T17:41:57Z) - CoCoT: Contrastive Chain-of-Thought Prompting for Large Multimodal
Models with Multiple Image Inputs [48.269363759989915]
この研究は、第1、画像対画像マッチング、第2、複数画像対テキストマッチングという2つの側面に焦点を当てている。
我々は, GPT-4V, Gemini, OpenFlamingo, MMICLを含む, オープンソースおよびクローズドソースの大規模モデルについて評価を行った。
論文 参考訳(メタデータ) (2024-01-05T00:26:07Z) - A Dual-way Enhanced Framework from Text Matching Point of View for
Multimodal Entity Linking [18.742934572771677]
マルチモーダルエンティティリンク(MEL)は、ウィキペディアのような知識グラフ(KG)のエンティティに曖昧な言及を多モーダル情報にリンクすることを目的としている。
我々は、各マルチモーダル情報(テキストと画像)をクエリとして扱うニューラルテキストマッチング問題として、マルチモーダルエンティティリンクを定式化する。
本稿では,MELのための双方向拡張(DWE)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-19T03:15:50Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z) - Named Entity and Relation Extraction with Multi-Modal Retrieval [51.660650522630526]
マルチモーダルな名前付きエンティティ認識(NER)と関係抽出(RE)は、関連画像情報を活用してNERとREの性能を向上させることを目的としている。
新たなマルチモーダル検索フレームワーク(MoRe)を提案する。
MoReはテキスト検索モジュールと画像ベースの検索モジュールを含み、入力されたテキストと画像の関連知識をそれぞれ知識コーパスで検索する。
論文 参考訳(メタデータ) (2022-12-03T13:11:32Z) - Know Your Surroundings: Panoramic Multi-Object Tracking by Multimodality
Collaboration [56.01625477187448]
MMPAT(MultiModality PAnoramic Multi-object Tracking framework)を提案する。
2次元パノラマ画像と3次元点雲を入力とし、マルチモーダルデータを用いて目標軌道を推定する。
提案手法は,検出タスクと追跡タスクの両方においてMMPATが最高性能を達成するJRDBデータセット上で評価する。
論文 参考訳(メタデータ) (2021-05-31T03:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。