論文の概要: GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing
- arxiv url: http://arxiv.org/abs/2501.06828v1
- Date: Sun, 12 Jan 2025 14:45:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:24:29.363034
- Title: GeoPix: Multi-Modal Large Language Model for Pixel-level Image Understanding in Remote Sensing
- Title(参考訳): GeoPix: リモートセンシングにおける画素レベルの画像理解のための多モード大言語モデル
- Authors: Ruizhe Ou, Yuan Hu, Fan Zhang, Jiaxin Chen, Yu Liu,
- Abstract要約: GeoPixは、画像理解機能をピクセルレベルまで拡張するRS MLLMである。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ学習可能なメモリモジュールをマスク予測器に統合する。
画素レベルの RS MLLM をトレーニングするための大規模データセットの欠如に対処するため,GeoPixInstruct データセットを構築した。
- 参考スコア(独自算出の注目度): 22.729750410621826
- License:
- Abstract: Multi-modal large language models (MLLMs) have achieved remarkable success in image- and region-level remote sensing (RS) image understanding tasks, such as image captioning, visual question answering, and visual grounding. However, existing RS MLLMs lack the pixel-level dialogue capability, which involves responding to user instructions with segmentation masks for specific instances. In this paper, we propose GeoPix, a RS MLLM that extends image understanding capabilities to the pixel level. This is achieved by equipping the MLLM with a mask predictor, which transforms visual features from the vision encoder into masks conditioned on the LLM's segmentation token embeddings. To facilitate the segmentation of multi-scale objects in RS imagery, a class-wise learnable memory module is integrated into the mask predictor to capture and store class-wise geo-context at the instance level across the entire dataset. In addition, to address the absence of large-scale datasets for training pixel-level RS MLLMs, we construct the GeoPixInstruct dataset, comprising 65,463 images and 140,412 instances, with each instance annotated with text descriptions, bounding boxes, and masks. Furthermore, we develop a two-stage training strategy to balance the distinct requirements of text generation and masks prediction in multi-modal multi-task optimization. Extensive experiments verify the effectiveness and superiority of GeoPix in pixel-level segmentation tasks, while also maintaining competitive performance in image- and region-level benchmarks.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、画像キャプション、視覚的質問応答、視覚的グラウンドニングなどの画像および地域レベルのリモートセンシング(RS)画像理解タスクにおいて顕著な成功を収めている。
しかし、既存のRS MLLMでは、特定のインスタンスのセグメンテーションマスクを用いたユーザ命令に応答するピクセルレベルの対話機能が欠如している。
本稿では,画像理解能力をピクセルレベルまで拡張する RS MLLM であるGeoPix を提案する。
これはMLLMにマスク予測器を装着することで実現され、視覚的特徴を視覚エンコーダからLLMのセグメンテーショントークンの埋め込みに条件付けされたマスクに変換する。
RS画像におけるマルチスケールオブジェクトのセグメンテーションを容易にするため、クラスワイズ可能なメモリモジュールをマスク予測器に統合し、クラスワイズなジオコンテキストをデータセット全体にわたってインスタンスレベルでキャプチャし保存する。
さらに,画素レベルのRS MLLMをトレーニングするための大規模データセットの欠如に対処するため,65,463イメージと140,412インスタンスからなるGeoPixInstructデータセットを構築し,各インスタンスにテキスト記述,バウンディングボックス,マスクを付加した。
さらに、マルチモーダルマルチタスク最適化において、テキスト生成とマスク予測の異なる要件のバランスをとるための2段階のトレーニング戦略を開発する。
画素レベルのセグメンテーションタスクにおいてGeoPixの有効性と優位性を検証し、画像レベルのベンチマークや領域レベルのベンチマークでは競合性能を維持した。
関連論文リスト
- GeoGround: A Unified Large Vision-Language Model. for Remote Sensing Visual Grounding [31.01378033872341]
GeoGroundは、HBB、OBB、マスクRSビジュアルグラウンドタスクのサポートを統合する新しいフレームワークである。
モデルトレーニングを支援するために,161kの画像テキストペアを含む大規模RS視覚指示追従データセットrefGeoを提案する。
論文 参考訳(メタデータ) (2024-11-16T05:12:11Z) - Aquila-plus: Prompt-Driven Visual-Language Models for Pixel-Level Remote Sensing Image Understanding [0.0]
画素レベルの視覚的理解を実現するために,Aquila-plusと呼ばれるマスク・テキスト・インストラクション・チューニング手法を提案する。
Aquila-plusは、畳み込みCLIPをビジュアルエンコーダとして使用し、マスク対応の視覚抽出器を使用して、正確な視覚マスクの特徴を抽出する。
実験の結果、Aquila-plusは様々な領域理解タスクにおいて既存の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-11-09T10:42:57Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - EarthMarker: A Visual Prompting Multi-modal Large Language Model for Remote Sensing [12.9701635989222]
平易な言語命令だけで複雑なリモートセンシング(RS)シナリオで情報を提供するのは難しい。
EarthMarkerは、視覚的なプロンプトを上昇させることで、画像、領域、点レベルのRS画像を解釈することができる。
論文 参考訳(メタデータ) (2024-07-18T15:35:00Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - PSALM: Pixelwise SegmentAtion with Large Multi-Modal Model [49.80313655590392]
PSALMは、セグメント化タスクの課題に対処するため、LMM(Large Multi-modal Model)の強力な拡張である。
マスクデコーダとよく設計された入力スキーマを組み込んで,さまざまなセグメンテーションタスクを処理する。
PSALMの柔軟な設計は、複数のデータセットとタスクのジョイントトレーニングをサポートし、パフォーマンスとタスクの一般化を改善している。
論文 参考訳(メタデータ) (2024-03-21T17:50:47Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Osprey: Pixel Understanding with Visual Instruction Tuning [15.094943732551018]
Ospreyは、細かいマスク領域を言語命令に組み込むことでMLLMを拡張するマスクテキスト命令チューニング手法である。
この目的を達成するために、まず724Kサンプルを用いてマスクベースの領域テキストデータセットをキュレートし、次いでLLMにピクセルレベルの表現を注入して視覚言語モデルを設計する。
具体的には、Ospreyは、畳み込みCLIPバックボーンを視覚エンコーダとして採用し、高解像度入力から正確な視覚マスク特徴を抽出するためにマスク対応視覚抽出器を使用している。
論文 参考訳(メタデータ) (2023-12-15T18:58:11Z) - CtxMIM: Context-Enhanced Masked Image Modeling for Remote Sensing Image Understanding [38.53988682814626]
リモートセンシング画像理解のためのコンテキスト強化マスク画像モデリング手法(CtxMIM)を提案する。
CtxMIMは、オリジナルのイメージパッチを再構成テンプレートとして定式化し、2セットのイメージパッチを操作するために、Siameseフレームワークを使用している。
シンプルでエレガントな設計により、CtxMIMは、大規模データセットでオブジェクトレベルまたはピクセルレベルの機能を学ぶための事前トレーニングモデルを奨励する。
論文 参考訳(メタデータ) (2023-09-28T18:04:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。