論文の概要: GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution
- arxiv url: http://arxiv.org/abs/2505.21375v1
- Date: Tue, 27 May 2025 16:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.7838
- Title: GeoLLaVA-8K: Scaling Remote-Sensing Multimodal Large Language Models to 8K Resolution
- Title(参考訳): GeoLLaVA-8K: 8K解像度へのリモートセンシングマルチモーダル言語モデルのスケーリング
- Authors: Fengxiang Wang, Mingshuo Chen, Yueying Li, Di Wang, Haotian Wang, Zonghao Guo, Zefan Wang, Boqi Shan, Long Lan, Yulin Wang, Hongzhen Wang, Wenjing Yang, Bo Du, Jing Zhang,
- Abstract要約: GeoLLaVA-8Kは、入力を最大8K$times$8Kまで処理できるRS中心のマルチモーダルな大規模言語モデルである。
SuperRS-VQAとHighRS-VQAは、現在までに22の現実世界の対話タスクをカバーする、RSで最も高解像度の視覚言語データセットである。
- 参考スコア(独自算出の注目度): 41.882887079235815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-high-resolution (UHR) remote sensing (RS) imagery offers valuable data for Earth observation but pose challenges for existing multimodal foundation models due to two key bottlenecks: (1) limited availability of UHR training data, and (2) token explosion caused by the large image size. To address data scarcity, we introduce SuperRS-VQA (avg. 8,376$\times$8,376) and HighRS-VQA (avg. 2,000$\times$1,912), the highest-resolution vision-language datasets in RS to date, covering 22 real-world dialogue tasks. To mitigate token explosion, our pilot studies reveal significant redundancy in RS images: crucial information is concentrated in a small subset of object-centric tokens, while pruning background tokens (e.g., ocean or forest) can even improve performance. Motivated by these findings, we propose two strategies: Background Token Pruning and Anchored Token Selection, to reduce the memory footprint while preserving key semantics.Integrating these techniques, we introduce GeoLLaVA-8K, the first RS-focused multimodal large language model capable of handling inputs up to 8K$\times$8K resolution, built on the LLaVA framework. Trained on SuperRS-VQA and HighRS-VQA, GeoLLaVA-8K sets a new state-of-the-art on the XLRS-Bench.
- Abstract(参考訳): 超高解像度(UHR)リモートセンシング(RS)画像は、地球観測に有用なデータを提供するが、既存のマルチモーダル基盤モデルには、(1)UHRトレーニングデータの可用性の制限、(2)大きな画像サイズによるトークン爆発の2つのボトルネックがある。
データ不足に対処するため,SuperRS-VQA(avg。
8,376$\times$8,376)およびHighRS-VQA (avg)。
2,000$\times$1,912は、これまでのRSで最高解像度のビジョン言語データセットで、22の現実世界の対話タスクをカバーしている。
重要な情報は、オブジェクト中心のトークンの小さなサブセットに集中しており、背景トークン(例えば、海や森)を刈り取ることで、パフォーマンスが向上する。
この手法を用いて,LLaVAフレームワーク上に構築された最大8K$\times$8Kのインプットを処理可能な,RSに着目した最初のマルチモーダル言語モデルGeoLLaVA-8Kを導入する。
SuperRS-VQAとHighRS-VQAで訓練されたGeoLLaVA-8Kは、XLRS-Benchに新しい最先端を設定できる。
関連論文リスト
- When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。
動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。
提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文 参考訳(メタデータ) (2025-03-10T17:51:16Z) - GeoPixel: Pixel Grounding Large Multimodal Model in Remote Sensing [32.85223015863783]
GeoPixelは、ピクセルレベルのグラウンド化をサポートするエンドツーエンドの高解像度RS-LMMである。
任意のアスペクト比で最大4K HD解像度をサポートし、高精度RS画像解析に最適である。
GeoPixelはピクセルレベルの理解において優れた性能を示し、単一ターゲットとマルチターゲットのセグメンテーションタスクの両方において既存のLMMを上回っている。
論文 参考訳(メタデータ) (2025-01-23T18:59:30Z) - RS-vHeat: Heat Conduction Guided Efficient Remote Sensing Foundation Model [59.37279559684668]
本稿では,効率的なマルチモーダルリモートセンシング基盤モデルであるRS-vHeatを紹介する。
具体的には、RS-vHeatは、O(N1.5)$の複雑さを持つ熱伝導演算子(HCO)と、大域的受容場を適用している。
注意に基づくリモートセンシング基礎モデルと比較して、メモリ使用量を84%削減し、FLOPを24%削減し、スループットを2.7倍改善する。
論文 参考訳(メタデータ) (2024-11-27T01:43:38Z) - VHM: Versatile and Honest Vision Language Model for Remote Sensing Image Analysis [48.06425266787859]
本稿では,リモートセンシング画像解析のためのVersatile and Honest Vision Language Model (VHM) を提案する。
VHMは、リッチコンテンツキャプション(VersaD)を備えた大規模リモートセンシング画像テキストデータセットと、事実と偽造的質問(HnstD)の両方からなる正直な命令データセット上に構築されている。
実験では,VHMはシーン分類,視覚的質問応答,視覚的接地といった共通タスクにおいて,様々な視覚言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-03-29T14:50:43Z) - Recurrent Multi-scale Transformer for High-Resolution Salient Object
Detection [68.65338791283298]
Salient Object Detection (SOD) は、画像やビデオの中で最も顕著なオブジェクトを識別し、セグメント化することを目的としている。
従来のSOD法は主に解像度の低い画像に限られており、高分解能SODの開発に適応することが困難である。
本研究ではまず,2K-8K解像度で10,500個の高品質なアノテート画像を含む新しいHRS10Kデータセットを提案する。
論文 参考訳(メタデータ) (2023-08-07T17:49:04Z) - An Attention-Fused Network for Semantic Segmentation of
Very-High-Resolution Remote Sensing Imagery [26.362854938949923]
注目融合ネットワーク(AFNet)という,新しい畳み込みニューラルネットワークアーキテクチャを提案する。
ISPRS Vaihingen 2DデータセットとISPRS Potsdam 2Dデータセットで、総精度91.7%、平均F1スコア90.96%の最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-05-10T06:23:27Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。