Fugu-MT 論文翻訳(概要): VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing

論文の概要: VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing

arxiv url: http://arxiv.org/abs/2602.07045v1
Date: Wed, 04 Feb 2026 08:21:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-10 20:26:24.397437
Title: VLRS-Bench: A Vision-Language Reasoning Benchmark for Remote Sensing
Title（参考訳）: VLRS-Bench:リモートセンシングのためのビジョンランゲージ推論ベンチマーク
Authors: Zhiming Luo, Di Wang, Haonan Guo, Jing Zhang, Bo Du,
Abstract要約: 複雑なリモートセンシング推論のためのビジョン言語ReaSoning Benchmark (VLRS-Bench) を提案する。 VLRS-Benchは平均71ワードの質問応答対を2,000個構成し、14のタスクと最大8つの時間フェーズにまたがる。
参考スコア（独自算出の注目度）: 49.12477222994131
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in Multimodal Large Language Models (MLLMs) have enabled complex reasoning. However, existing remote sensing (RS) benchmarks remain heavily biased toward perception tasks, such as object recognition and scene classification. This limitation hinders the development of MLLMs for cognitively demanding RS applications. To address this, , we propose a Vision Language ReaSoning Benchmark (VLRS-Bench), which is the first benchmark exclusively dedicated to complex RS reasoning. Structured across the three core dimensions of Cognition, Decision, and Prediction, VLRS-Bench comprises 2,000 question-answer pairs with an average length of 71 words, spanning 14 tasks and up to eight temporal phases. VLRS-Bench is constructed via a specialized pipeline that integrates RS-specific priors and expert knowledge to ensure geospatial realism and reasoning complexity. Experimental results reveal significant bottlenecks in existing state-of-the-art MLLMs, providing critical insights for advancing multimodal reasoning within the remote sensing community.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の最近の進歩は、複雑な推論を可能にしている。しかし、既存のリモートセンシング(RS)ベンチマークは、オブジェクト認識やシーン分類のような知覚タスクに大きく偏っている。この制限は認知に要求されるRSアプリケーションのためのMLLMの開発を妨げる。これを解決するために、複雑なRS推論専用のベンチマークであるVision Language ReaSoning Benchmark (VLRS-Bench)を提案する。 VLRS-Benchは、認知、決定、予測の3つの中核次元にまたがって構成され、平均71ワードの質問応答対を2,000個構成し、14のタスクと最大8つの時間フェーズにまたがる。 VLRS-Benchは、空間的リアリズムと推論の複雑さを保証するために、RS固有の事前知識と専門知識を統合する特殊なパイプラインによって構築される。実験の結果,既存のMLLMのボトルネックが顕著であり,リモートセンシングコミュニティにおけるマルチモーダル推論の進展に重要な洞察を与えている。

関連論文リスト

Evaluating Code Reasoning Abilities of Large Language Models Under Real-World Settings [5.30570508258782]
RE2-Benchは、成熟した現実世界のプロジェクトから引き出された195を含む1,101の推論問題のベンチマークである。 RE2-Benchを用いた2つの広く使われているコード推論タスクに対する6つの汎用的および推論指向のLCMの包括的な評価は、簡単な問題から難しい問題への大幅なパフォーマンス低下を明らかにしている。
論文参考訳（メタデータ） (2025-12-16T21:12:53Z)
MVU-Eval: Towards Multi-Video Understanding Evaluation for Multimodal LLMs [61.70050081221131]
MVU-EvalはMLLMのマルチビデオ理解を評価するための最初の包括的なベンチマークである。私たちのMVU-Evalは、主に8つのコア能力を評価し、4,959本のビデオにまたがる1,824本の厳密にキュレートされた質問応答ペアを評価します。これらの機能は、自律システムにおけるマルチセンサー合成や、クロスアングルスポーツ分析のような現実世界のアプリケーションと厳格に一致している。
論文参考訳（メタデータ） (2025-11-10T16:02:33Z)
Benchmarking Chinese Commonsense Reasoning with a Multi-hop Reasoning Perspective [53.594353527056775]
我々は,大言語モデル(LLM)を評価するために,中国語コモンセンスマルチホップ推論(CCMOR)を提案する。 CCMORは、中国固有の事実知識と多段階論理的推論を統合するLLMの能力を評価するように設計されている。提案手法では,提案手法を用いて,提案手法の検証と検証を行う。
論文参考訳（メタデータ） (2025-10-09T20:29:00Z)
OST-Bench: Evaluating the Capabilities of MLLMs in Online Spatio-temporal Scene Understanding [50.72259772580637]
エージェントの観点から,オンライン時空間理解を評価するためのベンチマークOST-Benchを紹介する。効率的なデータ収集パイプライン上に構築されたOST-Benchは、ScanNet、Matterport3D、ARKitScenesから収集された1.4kのシーンと10kの質問応答ペアで構成されている。複雑な空間的推論要求と長期記憶検索要求の両方が、2つの別々の軸に沿ってモデル性能を著しく低下させることがわかった。
論文参考訳（メタデータ） (2025-07-10T17:56:07Z)
StoryBench: A Dynamic Benchmark for Evaluating Long-Term Memory with Multi Turns [7.60350050736492]
長期記憶は、自律的な知性を達成するために、大規模言語モデルにとって不可欠である。既存のベンチマークでは、知識保持と動的シーケンシャル推論を評価する上で、課題に直面している。インタラクティブなフィクションゲームに基づく新しいベンチマークフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-16T10:54:31Z)
SpatialScore: Towards Unified Evaluation for Multimodal Spatial Understanding [64.15606979785355]
マルチモーダル大規模言語モデル(MLLM)は,質問応答タスクにおいて顕著な成功を収めているが,空間的理解能力は乏しい。既存のMLLMは3次元空間認識と理解能力を持っているか?
論文参考訳（メタデータ） (2025-05-22T17:59:03Z)
Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.668749313973097]
本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。 LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文参考訳（メタデータ） (2025-05-16T18:32:35Z)
XLRS-Bench: Could Your Multimodal LLMs Understand Extremely Large Ultra-High-Resolution Remote Sensing Imagery? [68.3805081483279]
超高分解能RSシナリオにおけるMLLMの知覚と推論能力を評価するための総合的なベンチマークであるXLRS-Benchを提案する。超高分解能RS画像上の新しい半自動キャプタによって手動で注釈付けされたすべての評価試料。 XLRS-Bench上の一般およびRSに焦点を当てたMLLMの結果は、現実世界のRSアプリケーションにはさらなる努力が必要であることを示唆している。
論文参考訳（メタデータ） (2025-03-31T06:41:18Z)
A Vision Centric Remote Sensing Benchmark [21.48675282619887]
リモートセンシングタスクにおけるCLIPに基づくMLLMの限界について検討した。リモートセンシングマルチモーダル視覚パターン(RSMMVP)ベンチマークを導入する。 CLIP-blindペアを識別することで、RSタスクのMLLMを評価するように設計されている。我々は最先端MLLMの性能を解析し、RS特化表現学習における重要な制限を明らかにした。
論文参考訳（メタデータ） (2025-03-20T03:03:46Z)
MIR-Bench: Can Your LLM Recognize Complicated Patterns via Many-Shot In-Context Reasoning? [21.638848019633595]
我々は、パターン認識のための最初のマルチショットインコンテキスト推論ベンチマークであるMIR-Benchを提案する。テキスト内推論における多くの新しい問題について検討し,多くの知見を得た。
論文参考訳（メタデータ） (2025-02-14T06:05:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。