論文の概要: CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2411.18145v2
- Date: Fri, 04 Apr 2025 03:07:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:46:13.286428
- Title: CHOICE: Benchmarking the Remote Sensing Capabilities of Large Vision-Language Models
- Title(参考訳): CHOICE:大規模視覚言語モデルのリモートセンシング能力のベンチマーク
- Authors: Xiao An, Jiaxing Sun, Zihan Gui, Wei He,
- Abstract要約: CHOICEは、大規模視覚言語モデル(VLM)の階層的リモートセンシング能力を客観的に評価するために設計されたベンチマークである。
リモートセンシングに不可欠な2つの主機能次元(知覚と推論)に着目し,さらに6つの二次的次元と23の葉のタスクを分類し,十分に包括された評価範囲を確保する。
新たにキュレートされたデータと、決定的な回答を伴う複数選択質問の形式は、客観的で直接的なパフォーマンス評価を可能にします。
- 参考スコア(独自算出の注目度): 3.728021539626579
- License:
- Abstract: The rapid advancement of Large Vision-Language Models (VLMs), both general-domain models and those specifically tailored for remote sensing, has demonstrated exceptional perception and reasoning capabilities in Earth observation tasks. However, a benchmark for systematically evaluating their capabilities in this domain is still lacking. To bridge this gap, we propose CHOICE, an extensive benchmark designed to objectively evaluate the hierarchical remote sensing capabilities of VLMs. Focusing on 2 primary capability dimensions essential to remote sensing: perception and reasoning, we further categorize 6 secondary dimensions and 23 leaf tasks to ensure a well-rounded assessment coverage. CHOICE guarantees the quality of all 10,507 problems through a rigorous process of data collection from 50 globally distributed cities, question construction and quality control. The newly curated data and the format of multiple-choice questions with definitive answers allow for an objective and straightforward performance assessment. Our evaluation of 3 proprietary and 21 open-source VLMs highlights their critical limitations within this specialized context. We hope that CHOICE will serve as a valuable resource and offer deeper insights into the challenges and potential of VLMs in the field of remote sensing. We will release CHOICE at https://github.com/ShawnAn-WHU/CHOICE.
- Abstract(参考訳): VLM(Large Vision-Language Models)の急速な進歩は、一般的なドメインモデルとリモートセンシングに適したモデルの両方が、地球観測タスクにおいて例外的な知覚と推論能力を示している。
しかし、この領域でそれらの能力を体系的に評価するベンチマークはまだ不足している。
このギャップを埋めるために、我々は、VLMの階層的リモートセンシング能力を客観的に評価する広範囲なベンチマークであるCHOICEを提案する。
リモートセンシングに不可欠な2つの主機能次元(知覚と推論)に着目し,さらに6つの二次的次元と23の葉のタスクを分類し,十分に包括された評価範囲を確保する。
CHOICEは、50のグローバルな分散都市からの厳格なデータ収集プロセスを通じて、10,507のすべての問題の品質を保証する。
新たにキュレートされたデータと、決定的な回答を伴う複数選択質問の形式は、客観的で直接的なパフォーマンス評価を可能にします。
3つのプロプライエタリなVLMと21のオープンソースVLMの評価は、この特殊なコンテキストにおける重要な制限を強調します。
我々は、CHOICEが貴重なリソースとして機能し、リモートセンシング分野におけるVLMの課題と可能性についてより深い洞察を提供することを期待している。
私たちはCHOICEをhttps://github.com/ShawnAn-WHU/CHOICEでリリースします。
関連論文リスト
- Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。
以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。
本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文 参考訳(メタデータ) (2025-01-07T18:59:55Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - Zero-Shot Action Recognition in Surveillance Videos [5.070026408553652]
現在のAIベースのビデオ監視システムは、広範囲の微調整を必要とするコアコンピュータビジョンモデルに依存している。
VideoLLaMA2はゼロショットのパフォーマンスが飛躍的に向上し、ベースラインを20%上回る。
さらに、Self-ReSはゼロショットアクション認識性能を44.6%に向上させた。
論文 参考訳(メタデータ) (2024-10-28T15:13:53Z) - Trustworthiness in Retrieval-Augmented Generation Systems: A Survey [59.26328612791924]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の開発において、急速に重要なパラダイムへと成長してきた。
本稿では,RAGシステムの信頼性を,事実性,堅牢性,公正性,透明性,説明責任,プライバシの6つの面で評価する統一的な枠組みを提案する。
論文 参考訳(メタデータ) (2024-09-16T09:06:44Z) - Reasoning Paths with Reference Objects Elicit Quantitative Spatial Reasoning in Large Vision-Language Models [61.899791071654654]
定量的空間的推論のために設計された5つのカテゴリに271の質問があるベンチマークQ-Spatial Benchを導入する。
本課題における最先端の視覚言語モデル(VLM)の性能について検討する。
本研究では,参照オブジェクトを視覚的手がかりとして,VLMが量的空間的疑問に答えることを奨励するゼロショットプロンプト技術であるSpatialPromptを開発した。
論文 参考訳(メタデータ) (2024-09-15T16:45:42Z) - Effectiveness Assessment of Recent Large Vision-Language Models [78.69439393646554]
本稿では,多言語多言語モデル(LVLM)の専門的および汎用的な課題における能力を評価する。
私たちは、自然、医療、産業という3つの異なるアプリケーションシナリオで6つの挑戦的なタスクを採用しています。
我々は,MiniGPT-v2,LLaVA-1.5,Shikraを含む最近の3つのオープンソースLVLMの視覚的認識および局所化性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T08:25:27Z) - How Many Unicorns Are in This Image? A Safety Evaluation Benchmark for
Vision LLMs [55.91371032213854]
本研究は視覚的推論におけるビジョンLLM(VLLM)の可能性に焦点を当てる。
本稿では、アウト・オブ・ディストリビューション(OOD)の一般化と敵の堅牢性の両方をカバーする包括的安全性評価スイートを紹介する。
論文 参考訳(メタデータ) (2023-11-27T18:59:42Z) - EgoThink: Evaluating First-Person Perspective Thinking Capability of Vision-Language Models [21.410065053609877]
視覚言語モデル(VLM)は、最近、従来の下流タスクにおいて有望な結果を示している。
EgoThinkは、12の詳細な次元を持つ6つのコア機能を含む、新しい視覚的質問答えベンチマークである。
論文 参考訳(メタデータ) (2023-11-27T07:44:25Z) - KNVQA: A Benchmark for evaluation knowledge-based VQA [8.602776661652083]
大きな視覚言語モデル(LVLM)は、視覚システムや言語システムにおいて、その強い知覚と推論能力のために大きな進歩を遂げている。
LVLMは、異なるシナリオにおけるLVLMの実用性を制限する、オブジェクト幻覚と事実的精度の2つの重要な問題に悩まされている。
マルチモーダルLVLMの現実性を反映した知識に基づくVQAタスク評価を行うKNVQA-Evalを提案する。
論文 参考訳(メタデータ) (2023-11-21T14:39:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。