論文の概要: XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?
- arxiv url: http://arxiv.org/abs/2503.23771v1
- Date: Mon, 31 Mar 2025 06:41:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:17.280815
- Title: XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery?
- Title(参考訳): XLRS-Bench:超大型の超高解像度リモートセンシング画像にマルチモーダルLCMは耐えられるか?
- Authors: Fengxiang Wang, Hongzhen Wang, Mingshuo Chen, Di Wang, Yulin Wang, Zonghao Guo, Qiang Ma, Long Lan, Wenjing Yang, Jing Zhang, Zhiyuan Liu, Maosong Sun,
- Abstract要約: 超高分解能RSシナリオにおけるMLLMの知覚と推論能力を評価するための総合的なベンチマークであるXLRS-Benchを提案する。
超高分解能RS画像上の新しい半自動キャプタによって手動で注釈付けされたすべての評価試料。
XLRS-Bench上の一般およびRSに焦点を当てたMLLMの結果は、現実世界のRSアプリケーションにはさらなる努力が必要であることを示唆している。
- 参考スコア(独自算出の注目度): 68.3805081483279
- License:
- Abstract: The astonishing breakthrough of multimodal large language models (MLLMs) has necessitated new benchmarks to quantitatively assess their capabilities, reveal their limitations, and indicate future research directions. However, this is challenging in the context of remote sensing (RS), since the imagery features ultra-high resolution that incorporates extremely complex semantic relationships. Existing benchmarks usually adopt notably smaller image sizes than real-world RS scenarios, suffer from limited annotation quality, and consider insufficient dimensions of evaluation. To address these issues, we present XLRS-Bench: a comprehensive benchmark for evaluating the perception and reasoning capabilities of MLLMs in ultra-high-resolution RS scenarios. XLRS-Bench boasts the largest average image size (8500$\times$8500) observed thus far, with all evaluation samples meticulously annotated manually, assisted by a novel semi-automatic captioner on ultra-high-resolution RS images. On top of the XLRS-Bench, 16 sub-tasks are defined to evaluate MLLMs' 10 kinds of perceptual capabilities and 6 kinds of reasoning capabilities, with a primary emphasis on advanced cognitive processes that facilitate real-world decision-making and the capture of spatiotemporal changes. The results of both general and RS-focused MLLMs on XLRS-Bench indicate that further efforts are needed for real-world RS applications. We have open-sourced XLRS-Bench to support further research in developing more powerful MLLMs for remote sensing.
- Abstract(参考訳): マルチモーダルな大規模言語モデル(MLLM)の驚くべきブレークスルーは、それらの能力を定量的に評価し、それらの限界を明らかにし、将来の研究方向性を示すために、新しいベンチマークを必要としている。
しかし、画像は極めて複雑な意味関係を含む超高解像度を特徴としているため、リモートセンシング(RS)の文脈ではこれは難しい。
既存のベンチマークでは、実際のRSシナリオよりも画像サイズが特に小さく、アノテーションの品質が限られており、評価の寸法が不十分である。
これらの問題に対処するために,超高分解能RSシナリオにおけるMLLMの知覚と推論能力を評価するための総合ベンチマークXLRS-Benchを提案する。
XLRS-Bench はこれまでに観測された平均画像サイズ (8500$\times$8500) が最大であり、すべての評価サンプルは手動で微妙に注釈付けされ、超高解像度のRS画像に新しい半自動キャプタで助けられている。
XLRS-Benchの上に16のサブタスクを定義し、MLLMの10種類の知覚能力と6種類の推論能力を評価する。
XLRS-Bench上の一般およびRSに焦点を当てたMLLMの結果は、現実世界のRSアプリケーションにはさらなる努力が必要であることを示唆している。
我々はXLRS-Benchをオープンソース化し、リモートセンシングのためのより強力なMLLMの開発におけるさらなる研究を支援した。
関連論文リスト
- RSUniVLM: A Unified Vision Language Model for Remote Sensing via Granularity-oriented Mixture of Experts [17.76606110070648]
複数の粒度にまたがる包括的視覚理解のための統一型エンドツーエンドRS VLMであるRSUniVLMを提案する。
RSUniVLMは、変更検出や変更キャプションのインスタンスを含む、マルチイメージ解析において効果的に機能する。
また、RSと一般ドメインの両方の既存のデータセットに基づいて、大規模なRS命令追従データセットを構築した。
論文 参考訳(メタデータ) (2024-12-07T15:11:21Z) - mR$^2$AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA [78.45521005703958]
マルチモーダル検索拡張生成(mRAG)はMLLMに包括的で最新の知識を提供するために自然に導入されている。
我々は、適応的検索と有用な情報ローカライゼーションを実現する textbfRetrieval-textbfReftextbfAugmented textbfGeneration (mR$2$AG) という新しいフレームワークを提案する。
mR$2$AG は INFOSEEK と Encyclopedic-VQA の最先端MLLM を著しく上回る
論文 参考訳(メタデータ) (2024-11-22T16:15:50Z) - Enhancing Ultra High Resolution Remote Sensing Imagery Analysis with ImageRAG [24.342190878813234]
ImageRAG for RSは、UHRリモートセンシング画像の解析の複雑さに対処する、トレーニング不要のフレームワークである。
ImageRAGのコアイノベーションは、UHRイメージの最も関連性の高い部分を視覚的コンテキストとして選択的に検索し、焦点を合わせる能力にある。
論文 参考訳(メタデータ) (2024-11-12T10:12:12Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Divide, Conquer and Combine: A Training-Free Framework for High-Resolution Image Perception in Multimodal Large Language Models [57.280853324896306]
マルチモーダル大言語モデル(MLLM)は、高解像度(HR)画像の複雑な詳細を認識し解釈するのに苦労する。
HR-Benchは、4K&8K画像上でMLLMの性能を厳格に評価する最初の意図的に設計されたベンチマークである。
HR画像のMLLM知覚を高めるための新しいトレーニングフリーフレームワークであるDivide, Conquer and Combine (DC$2$)を提案する。
論文 参考訳(メタデータ) (2024-08-28T06:09:02Z) - II-Bench: An Image Implication Understanding Benchmark for Multimodal Large Language Models [49.070801221350486]
マルチモーダルな大言語モデル(MLLM)は、様々なベンチマークで新しいブレークスルーをもたらしている。
本稿では,画像の高次知覚評価を目的とした画像意味理解ベンチマークII-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-09T17:25:47Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - MileBench: Benchmarking MLLMs in Long Context [31.211260223575092]
MLLMのMultImodal Long-contExt機能をテストするためのベンチマークであるMileBenchを紹介する。
MLLMの長文適応能力と長文シナリオにおけるタスク完了能力を体系的に評価する。
その結果、オープンソースGPT-4oは他よりも優れているが、ほとんどのオープンソースMLLMは長期的文脈で苦労していることがわかった。
論文 参考訳(メタデータ) (2024-04-29T09:19:05Z) - LHRS-Bot: Empowering Remote Sensing with VGI-Enhanced Large Multimodal Language Model [10.280417075859141]
本稿では,新しい視覚言語アライメント戦略とカリキュラム学習手法を通じて,RS画像理解に適したMLLMであるLHRS-Botを紹介する。
総合的な実験により、LHRS-BotはRS画像の深い理解と、RS領域内でニュアンス推論を行う能力を示すことが示された。
論文 参考訳(メタデータ) (2024-02-04T15:46:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。