論文の概要: COREval: A Comprehensive and Objective Benchmark for Evaluating the Remote Sensing Capabilities of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.18145v1
- Date: Wed, 27 Nov 2024 08:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:26:40.337318
- Title: COREval: A Comprehensive and Objective Benchmark for Evaluating the Remote Sensing Capabilities of Large Vision-Language Models
- Title(参考訳): COREval:大規模視覚言語モデルのリモートセンシング能力評価のための総合的・客観的ベンチマーク
- Authors: Xiao An, Jiaxing Sun, Zihan Gui, Wei He,
- Abstract要約: 我々は,大規模視覚言語モデル(VLM)の階層的リモートセンシング能力を包括的かつ客観的に評価する最初のベンチマークであるCOREvalを提案する。
リモートセンシングに不可欠な2つの主機能次元(知覚と推論)に焦点をあて、さらに6つの二次次元と22の葉のタスクを分類し、この特定分野の十分な評価範囲を確保する。
汎用およびリモートセンシングドメインから13の著名なオープンソースVLMの総合評価を行い、リモートセンシング機能における現在の欠点を強調し、この特殊なコンテキストにおけるアプリケーション改善の方向性を示した。
- 参考スコア(独自算出の注目度): 3.728021539626579
- License:
- Abstract: With the rapid development of Large Vision-Language Models (VLMs), both general-domain models and those specifically tailored for remote sensing Earth observation, have demonstrated exceptional perception and reasoning abilities within this specific field. However, the current absence of a comprehensive benchmark for holistically evaluating the remote sensing capabilities of these VLMs represents a significant gap. To bridge this gap, we propose COREval, the first benchmark designed to comprehensively and objectively evaluate the hierarchical remote sensing capabilities of VLMs. Concentrating on 2 primary capability dimensions essential to remote sensing: perception and reasoning, we further categorize 6 secondary dimensions and 22 leaf tasks to ensure a well-rounded assessment coverage for this specific field. COREval guarantees the quality of the total of 6,263 problems through a rigorous process of data collection from 50 globally distributed cities, question construction and quality control, and the format of multiple-choice questions with definitive answers allows for an objective and straightforward evaluation of VLM performance. We conducted a holistic evaluation of 13 prominent open-source VLMs from both the general and remote sensing domains, highlighting current shortcomings in their remote sensing capabilities and providing directions for improvements in their application within this specialized context. We hope that COREval will serve as a valuable resource and offer deeper insights into the challenges and potential of VLMs in the field of remote sensing.
- Abstract(参考訳): VLM(Large Vision-Language Models)の急速な発展に伴い、一般ドメインモデルとリモートセンシング地球観測に適したモデルの両方が、この特定分野における例外的な知覚と推論能力を示している。
しかしながら、これらのVLMのリモートセンシング能力を総合的に評価するための総合的なベンチマークが現在存在しないことは、大きなギャップである。
このギャップを埋めるために,VLMの階層的リモートセンシング能力を包括的かつ客観的に評価する最初のベンチマークであるCOREvalを提案する。
リモートセンシングに不可欠な2つの主機能次元(知覚と推論)に焦点をあて、さらに6つの二次次元と22の葉のタスクを分類し、この特定分野の十分な評価範囲を確保する。
COREvalは、50のグローバルな分散都市からの厳密なデータ収集プロセス、質問構築と品質管理、そして決定的な回答を伴う複数選択質問の形式によって、VLMのパフォーマンスを客観的かつ容易に評価することで、合計6,263の課題の品質を保証する。
汎用およびリモートセンシング領域から13の著名なオープンソースVLMの総合評価を行い、リモートセンシング能力の現在の欠点を強調し、この特殊なコンテキストにおけるアプリケーション改善の方向性を示した。
私たちは、COREvalが貴重なリソースとなり、リモートセンシング分野におけるVLMの課題と可能性についてより深い洞察を提供することを期待しています。
関連論文リスト
- Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Zero-Shot Action Recognition in Surveillance Videos [5.070026408553652]
現在のAIベースのビデオ監視システムは、広範囲の微調整を必要とするコアコンピュータビジョンモデルに依存している。
VideoLLaMA2はゼロショットのパフォーマンスが飛躍的に向上し、ベースラインを20%上回る。
さらに、Self-ReSはゼロショットアクション認識性能を44.6%に向上させた。
論文 参考訳(メタデータ) (2024-10-28T15:13:53Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z) - KNVQA: A Benchmark for evaluation knowledge-based VQA [8.602776661652083]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文 参考訳(メタデータ) (2023-11-21T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。