論文の概要: Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation
- arxiv url: http://arxiv.org/abs/2502.15563v1
- Date: Fri, 21 Feb 2025 16:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 16:11:53.476614
- Title: Bridging vision language model (VLM) evaluation gaps with a framework for scalable and cost-effective benchmark generation
- Title(参考訳): スケーラブルで費用対効果の高いベンチマーク生成のためのフレームワークによるブリッジングビジョン言語モデル(VLM)の評価ギャップ
- Authors: Tim Rädsch, Leon Mayer, Simon Pavicic, A. Emre Kavur, Marcel Knopp, Barış Öztürk, Klaus Maier-Hein, Paul F. Jaeger, Fabian Isensee, Annika Reinke, Lena Maier-Hein,
- Abstract要約: 本稿では,ドメイン固有のVLMベンチマークの資源効率向上のためのフレームワークを提案する。
また、同じ均質なプロトコルに基づいて作成した7つのドメインに対する新しいVLMベンチマークもリリースしている。
合計37,171タスクにおける22の最先端VLMの広範なベンチマークにより、ドメインとタスク間のパフォーマンスのばらつきが明らかになった。
- 参考スコア(独自算出の注目度): 1.5882269305999785
- License:
- Abstract: Reliable evaluation of AI models is critical for scientific progress and practical application. While existing VLM benchmarks provide general insights into model capabilities, their heterogeneous designs and limited focus on a few imaging domains pose significant challenges for both cross-domain performance comparison and targeted domain-specific evaluation. To address this, we propose three key contributions: (1) a framework for the resource-efficient creation of domain-specific VLM benchmarks enabled by task augmentation for creating multiple diverse tasks from a single existing task, (2) the release of new VLM benchmarks for seven domains, created according to the same homogeneous protocol and including 162,946 thoroughly human-validated answers, and (3) an extensive benchmarking of 22 state-of-the-art VLMs on a total of 37,171 tasks, revealing performance variances across domains and tasks, thereby supporting the need for tailored VLM benchmarks. Adoption of our methodology will pave the way for the resource-efficient domain-specific selection of models and guide future research efforts toward addressing core open questions.
- Abstract(参考訳): AIモデルの信頼性評価は、科学的進歩と実用化に不可欠である。
既存のVLMベンチマークは、モデル機能に関する一般的な洞察を提供するが、その不均一な設計といくつかの画像領域への限定的な焦点は、クロスドメインパフォーマンス比較とターゲットドメイン固有の評価の両方に重大な課題をもたらす。
1つの既存タスクから多種多様なタスクを作成できるタスク拡張によって実現されるドメイン固有VLMベンチマークのリソース効率向上のためのフレームワーク、(2)同一の同種プロトコルに基づいて作成された7つのドメイン用の新しいVLMベンチマークのリリース、(3)合計37,171タスクにおける22の最先端VLMの広範なベンチマーク、そしてドメインとタスク間のパフォーマンスのばらつきを明らかにすることで、カスタマイズされたVLMベンチマークの必要性をサポートすることを提案する。
提案手法の採用は,資源効率の高いドメイン固有モデル選択の道を開くとともに,コアなオープンな問題に対処するための今後の研究の指針となる。
関連論文リスト
- EmbodiedEval: Evaluate Multimodal LLMs as Embodied Agents [57.4686961979566]
EmbodiedEvalは、組み込みタスクを持つMLLMの総合的かつインタラクティブな評価ベンチマークである。
多様性が大幅に向上した既存のAIタスクの幅広い範囲をカバーする。
EmbodiedEval における最先端MLLM の評価を行い,人体作業における人体レベルと比較して有意に不足していることがわかった。
論文 参考訳(メタデータ) (2025-01-21T03:22:10Z) - Enterprise Benchmarks for Large Language Model Evaluation [10.233863135015797]
本研究は,大規模言語モデル (LLM) 評価に適したベンチマーク戦略を体系的に検討する。
提案された評価フレームワークは、金融サービス、法律、サイバーセキュリティ、気候と持続可能性など、さまざまなエンタープライズドメインから利用可能な25のデータセットを含んでいる。
異なるエンタープライズタスクにわたる13モデルの多種多様なパフォーマンスは、各タスクの特定の要求に基づいて適切なモデルを選択することの重要性を強調します。
論文 参考訳(メタデータ) (2024-10-11T18:19:05Z) - LalaEval: A Holistic Human Evaluation Framework for Domain-Specific Large Language Models [6.002286552369069]
LalaEvalは、特定のドメイン内で標準化された人間の評価を行うための体系的な方法論を提供することによって、重要な研究ギャップを埋めることを目指している。
本稿では,ロジスティクス業界におけるフレームワークの適用例を示す。
論文 参考訳(メタデータ) (2024-08-23T19:12:45Z) - R-Eval: A Unified Toolkit for Evaluating Domain Knowledge of Retrieval Augmented Large Language Models [51.468732121824125]
大規模言語モデルは一般的なNLPタスクにおいて顕著な成功を収めてきたが、ドメイン固有の問題には不足する可能性がある。
既存の評価ツールは、ドメイン知識の深さを掘り下げることなく、いくつかのベースラインを提供し、様々なドメインで評価するのみである。
本稿では、R-Evalツールキット(R-Evalツールキット)を導入し、異なるRAGの評価を合理化することによるALLMの評価の課題に対処する。
論文 参考訳(メタデータ) (2024-06-17T15:59:49Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Domain-Expanded ASTE: Rethinking Generalization in Aspect Sentiment Triplet Extraction [67.54420015049732]
Aspect Sentiment Triplet extract (ASTE) は感情分析における課題であり、人間の感情に対するきめ細かい洞察を提供することを目的としている。
既存のベンチマークは2つのドメインに限定されており、目に見えないドメイン上でのモデルパフォーマンスを評価しない。
各種ドメインのサンプルに注釈を付けることでドメイン拡張ベンチマークを導入し,ドメイン内設定とドメイン外設定の両方でモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-05-23T18:01:49Z) - Multi-level Consistency Learning for Semi-supervised Domain Adaptation [85.90600060675632]
半教師付きドメイン適応(SSDA)は、完全にラベル付けされたソースドメインから学習した知識をわずかにラベル付けされたターゲットドメインに適用することを目的としている。
SSDAのための多レベル一貫性学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-09T06:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。