論文の概要: A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs
- arxiv url: http://arxiv.org/abs/2512.17319v1
- Date: Fri, 19 Dec 2025 08:07:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.296611
- Title: A Benchmark for Ultra-High-Resolution Remote Sensing MLLMs
- Title(参考訳): 超高分解能リモートセンシングMLLMのベンチマーク
- Authors: Yunkai Dang, Meiyi Zhu, Donghao Wang, Yizhuo Zhang, Jiacheng Yang, Qi Fan, Yuekun Yang, Wenbin Li, Feng Miao, Yang Gao,
- Abstract要約: マルチモーダル大言語モデル(MLLM)は、既存のリモートセンシング(RS)ベンチマークにおいて、強い知覚と推論性能を示す。
テキストのみのLLMは、画像にアクセスすることなく、RS推論タスク上でマルチモーダル視覚言語モデルと競合して動作可能であることを示す。
本稿では,RSの視覚的理解と推論のための超高分解能ベンチマークであるRSHR-Benchを紹介する。
- 参考スコア(独自算出の注目度): 15.631314307574705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) demonstrate strong perception and reasoning performance on existing remote sensing (RS) benchmarks. However, most prior benchmarks rely on low-resolution imagery, and some high-resolution benchmarks suffer from flawed reasoning-task designs. We show that text-only LLMs can perform competitively with multimodal vision-language models on RS reasoning tasks without access to images, revealing a critical mismatch between current benchmarks and the intended evaluation of visual understanding. To enable faithful assessment, we introduce RSHR-Bench, a super-high-resolution benchmark for RS visual understanding and reasoning. RSHR-Bench contains 5,329 full-scene images with a long side of at least 4,000 pixels, with up to about 3 x 10^8 pixels per image, sourced from widely used RS corpora and UAV collections. We design four task families: multiple-choice VQA, open-ended VQA, image captioning, and single-image evaluation. These tasks cover nine perception categories and four reasoning types, supporting multi-turn and multi-image dialog. To reduce reliance on language priors, we apply adversarial filtering with strong LLMs followed by rigorous human verification. Overall, we construct 3,864 VQA tasks, 3,913 image captioning tasks, and 500 fully human-written or verified single-image evaluation VQA pairs. Evaluations across open-source, closed-source, and RS-specific VLMs reveal persistent performance gaps in super-high-resolution scenarios. Code: https://github.com/Yunkaidang/RSHR
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、既存のリモートセンシング(RS)ベンチマークにおいて、強い知覚と推論性能を示す。
しかし、ほとんどの以前のベンチマークは低解像度の画像に依存しており、いくつかの高解像度のベンチマークは推論タスクの欠陥に悩まされている。
テキストのみのLLMは、画像にアクセスせずにRS推論タスク上でマルチモーダル視覚言語モデルと競合して動作できることを示し、現在のベンチマークと視覚的理解の意図した評価との間には重大なミスマッチがあることを明らかにする。
忠実な評価を可能にするために,RSの視覚的理解と推論のための超高分解能ベンチマークであるRSHR-Benchを紹介する。
RSHR-Benchは5,329枚のフルシーン画像を含み、少なくとも4000ピクセルの長辺を持つ。
我々は,複数選択VQA,オープンエンドVQA,イメージキャプション,単一画像評価の4つのタスクファミリーを設計する。
これらのタスクは、9つの知覚カテゴリと4つの推論タイプを含み、マルチターンとマルチイメージダイアログをサポートする。
言語事前への依存を軽減するため,強いLLMを用いた逆フィルタリングと厳密な人間による検証を併用する。
全体として,3,864のVQAタスク,3,913のイメージキャプションタスク,500の完全な人手書きまたは検証されたシングルイメージ評価VQAペアを構築した。
オープンソース、クローズドソース、RS固有のVLMによる評価は、超高解像度シナリオにおける持続的なパフォーマンスギャップを明らかにする。
コード:https://github.com/Yunkaidang/RSHR
関連論文リスト
- FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering [8.826505135681705]
我々は、最も関連性の高い画像領域の探索をガイドする、FOCUSと呼ばれる訓練不要な視覚的収穫法を提案する。
FOCUSは4つの細粒度VQAデータセットと3種類のMLLMに対して高いパフォーマンスを実現している。
精度と効率の両面で人気の高い3つのビジュアルトリミング法を上回り、最高のパフォーマンスのベースラインであるZoomEyeに匹敵する。
論文 参考訳(メタデータ) (2025-06-26T18:51:04Z) - LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? [80.4577892387028]
テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを紹介する。
我々は、テキストコーパスをマルチモーダルサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。
我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
論文 参考訳(メタデータ) (2025-05-18T08:39:37Z) - VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models [121.03333569013148]
VisuLogicは、6つのカテゴリにまたがる1,000の人間認証された問題のベンチマークです。
これらの質問は、複数の視点からMLLMの視覚的推論能力を評価するために評価することができる。
ほとんどのモデルは精度が30%以下で、25%のランダムベースラインよりわずかに高く、人間によって達成された51.4%よりはるかに低い。
論文 参考訳(メタデータ) (2025-04-21T17:59:53Z) - A Vision Centric Remote Sensing Benchmark [21.48675282619887]
リモートセンシングタスクにおけるCLIPに基づくMLLMの限界について検討した。
リモートセンシングマルチモーダル視覚パターン(RSMMVP)ベンチマークを導入する。
CLIP-blindペアを識別することで、RSタスクのMLLMを評価するように設計されている。
我々は最先端MLLMの性能を解析し、RS特化表現学習における重要な制限を明らかにした。
論文 参考訳(メタデータ) (2025-03-20T03:03:46Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Visual Haystacks: A Vision-Centric Needle-In-A-Haystack Benchmark [63.296342841358815]
大規模マルチモーダルモデル(LMM)は、単一画像に対する視覚的質問応答において大きな進歩を遂げている。
多数の視覚トークンを処理する能力は、複数画像の質問応答に対する効果的な検索と推論を保証するものではない。
オープンソースで軽量なビジュアルRAGフレームワークであるMIRAGEを導入し、単一の40G A100 GPU上で最大10Kイメージを処理する。
論文 参考訳(メタデータ) (2024-07-18T17:59:30Z) - Q-Bench+: A Benchmark for Multi-modal Foundation Models on Low-level Vision from Single Images to Pairs [71.07108539262721]
低レベルの視覚に関連する人間の言語応答をエミュレートするためのベンチマーク設定を設計する。
我々は,MLLMの低レベルの認識関連質問応答と記述評価を,単一画像から画像ペアへ拡張する。
複数のMLLMが単一の画像に対して十分な低レベルの視覚能力を持つことを示したが、GPT-4Vのみが人間よりも高い精度で比較できる。
論文 参考訳(メタデータ) (2024-02-11T06:44:11Z) - SHIELD : An Evaluation Benchmark for Face Spoofing and Forgery Detection with Multimodal Large Language Models [61.8876114116716]
MLLM(Multimodal large language model)は、視覚関連タスクにおいて強力な機能を示す。
しかし、顔攻撃検出タスクにおける微妙な視覚的偽造や偽造の手がかりを検出する能力は、まだ探索されていない。
フェーススプーフィングと偽造検出のためのMLLM評価のためのベンチマークShiELDを導入する。
論文 参考訳(メタデータ) (2024-02-06T17:31:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。