論文の概要: CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.18145v3
- Date: Tue, 13 May 2025 09:32:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 16:45:08.752269
- Title: CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models
- Title(参考訳): CHOICE:大規模視覚言語モデルのリモートセンシング能力のベンチマーク
- Authors: Xiao An, Jiaxing Sun, Zihan Gui, Wei He,
- Abstract要約: CHOICEは、大規模視覚言語モデル(VLM)の階層的リモートセンシング能力を客観的に評価するために設計されたベンチマークである。
リモートセンシングに不可欠な2つの主機能次元(知覚と推論)に着目し,さらに6つの二次的次元と23の葉のタスクを分類し,十分に包括された評価範囲を確保する。
新たにキュレートされたデータと、決定的な回答を伴う複数選択質問の形式は、客観的で直接的なパフォーマンス評価を可能にします。
- 参考スコア(独自算出の注目度): 3.728021539626579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of Large Vision-Language Models (VLMs), both general-domain models and those specifically tailored for remote sensing, has demonstrated exceptional perception and reasoning capabilities in Earth observation tasks. However, a benchmark for systematically evaluating their capabilities in this domain is still lacking. To bridge this gap, we propose CHOICE, an extensive benchmark designed to objectively evaluate the hierarchical remote sensing capabilities of VLMs. Focusing on 2 primary capability dimensions essential to remote sensing: perception and reasoning, we further categorize 6 secondary dimensions and 23 leaf tasks to ensure a well-rounded assessment coverage. CHOICE guarantees the quality of all 10,507 problems through a rigorous process of data collection from 50 globally distributed cities, question construction and quality control. The newly curated data and the format of multiple-choice questions with definitive answers allow for an objective and straightforward performance assessment. Our evaluation of 3 proprietary and 21 open-source VLMs highlights their critical limitations within this specialized context. We hope that CHOICE will serve as a valuable resource and offer deeper insights into the challenges and potential of VLMs in the field of remote sensing. We will release CHOICE at https://github.com/ShawnAn-WHU/CHOICE.
- Abstract(参考訳): VLM(Large Vision-Language Models)の急速な進歩は、一般的なドメインモデルとリモートセンシングに適したモデルの両方が、地球観測タスクにおいて例外的な知覚と推論能力を示している。
しかし、この領域でそれらの能力を体系的に評価するベンチマークはまだ不足している。
このギャップを埋めるために、我々は、VLMの階層的リモートセンシング能力を客観的に評価する広範囲なベンチマークであるCHOICEを提案する。
リモートセンシングに不可欠な2つの主機能次元(知覚と推論)に着目し,さらに6つの二次的次元と23の葉のタスクを分類し,十分に包括された評価範囲を確保する。
CHOICEは、50のグローバルな分散都市からの厳格なデータ収集プロセスを通じて、10,507のすべての問題の品質を保証する。
新たにキュレートされたデータと、決定的な回答を伴う複数選択質問の形式は、客観的で直接的なパフォーマンス評価を可能にします。
3つのプロプライエタリなVLMと21のオープンソースVLMの評価は、この特殊なコンテキストにおける重要な制限を強調します。
我々は、CHOICEが貴重なリソースとして機能し、リモートセンシング分野におけるVLMの課題と可能性についてより深い洞察を提供することを期待している。
私たちはCHOICEをhttps://github.com/ShawnAn-WHU/CHOICEでリリースします。
関連論文リスト
- Toward Generalizable Evaluation in the LLM Era: A Survey Beyond Benchmarks [229.73714829399802]
この調査は、大規模言語モデルの台頭が評価に役立っている中核的な課題を調査する。
i) タスク固有のものから能力に基づく評価へと、知識、推論、指示に従うこと、マルチモーダル理解、安全性といったコア能力に関するベンチマークを再編成する。
この問題と、上記の2つのトランジションの中核的な課題を、メソッド、データセット、評価器、メトリクスの観点から検討する。
論文 参考訳(メタデータ) (2025-04-26T07:48:52Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は349万の質問と332万の画像からなる総合的なきめ細かい評価ベンチマーク、すなわちFG-BMKを導入する。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving [45.35559773691414]
$textbfVLADBenchは、トラフィック知識理解、一般要素認識、トラフィックグラフ生成、ターゲット属性、意思決定と計画の5つの主要なドメインにまたがる。
このベンチマークにおける一般およびドメイン固有(DS)VLMの徹底的な評価は、ADコンテキストにおけるその強みと臨界限界の両方を明らかにしている。
実験の結果,提案したベンチマークは,ADにおけるVLMのより包括的評価に向けた重要なステップであり,より認知的に洗練され,推論可能なADシステムの開発への道を開いた。
論文 参考訳(メタデータ) (2025-03-27T13:45:47Z) - VLRMBench: A Comprehensive and Challenging Benchmark for Vision-Language Reward Models [40.87249469370042]
視覚言語モデル(VLRM)は、推論プロセスにおいてますます重要になっている。
既存の視覚言語RM(VLRM)のベンチマークは、通常、その能力の1つの側面しか評価しない。
我々は、12,634の質問を含むVLRMBenchと呼ばれる包括的で挑戦的なベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-10T15:52:57Z) - GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。
私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。
地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文 参考訳(メタデータ) (2024-11-28T18:59:56Z) - Zero-Shot Action Recognition in Surveillance Videos [5.070026408553652]
現在のAIベースのビデオ監視システムは、広範囲の微調整を必要とするコアコンピュータビジョンモデルに依存している。
VideoLLaMA2はゼロショットのパフォーマンスが飛躍的に向上し、ベースラインを20%上回る。
さらに、Self-ReSはゼロショットアクション認識性能を44.6%に向上させた。
論文 参考訳(メタデータ) (2024-10-28T15:13:53Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Guiding Vision-Language Model Selection for Visual Question-Answering Across Tasks, Domains, and Knowledge Types [0.9217021281095907]
本稿では,タスクタイプ,アプリケーションドメイン,知識タイプを付加した,確立されたVQAベンチマークから得られた新しいデータセットについて,総合的な評価を行う。
また、GPT-4oを用いて開発されたマルチモーダル評価指標であるGoEvalを導入し、人間の判断と56.71%の相関係数を達成した。
論文 参考訳(メタデータ) (2024-09-14T02:29:36Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z) - KNVQA: A Benchmark for evaluation knowledge-based VQA [8.602776661652083]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文 参考訳(メタデータ) (2023-11-21T14:39:18Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。