論文の概要: JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation
- arxiv url: http://arxiv.org/abs/2604.00909v1
- Date: Wed, 01 Apr 2026 13:53:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.014775
- Title: JAMMEval: A Refined Collection of Japanese Benchmarks for Reliable VLM Evaluation
- Title(参考訳): JAMMEval:信頼性VLM評価のための日本語ベンチマークの改訂版
- Authors: Issa Sugiura, Koki Maeda, Shuhei Kurita, Yusuke Oda, Daisuke Kawahara, Naoaki Okazaki,
- Abstract要約: JAMMEvalは、信頼性の高いVLM評価のための日本のベンチマークの洗練されたコレクションである。
既存の7つのベンチマークデータセットを2ラウンドの人的アノテーションで体系的に書き換えることによって構築される。
その結果, モデル性能を反映した評価スコアが得られたこと, 実行時差の低減, 能力レベルの異なるモデルの識別能力の向上が示された。
- 参考スコア(独自算出の注目度): 31.166325406572252
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable evaluation is essential for the development of vision-language models (VLMs). However, Japanese VQA benchmarks have undergone far less iterative refinement than their English counterparts. As a result, many existing benchmarks contain issues such as ambiguous questions, incorrect answers, and instances that can be solved without visual grounding, undermining evaluation reliability and leading to misleading conclusions in model comparisons. To address these limitations, we introduce JAMMEval, a refined collection of Japanese benchmarks for reliable VLM evaluation. It is constructed by systematically refining seven existing Japanese benchmark datasets through two rounds of human annotation, improving both data quality and evaluation reliability. In our experiments, we evaluate open-weight and proprietary VLMs on JAMMEval and analyze the capabilities of recent models on Japanese VQA. We further demonstrate the effectiveness of our refinement by showing that the resulting benchmarks yield evaluation scores that better reflect model capability, exhibit lower run-to-run variance, and improve the ability to distinguish between models of different capability levels. We release our dataset and code to advance reliable evaluation of VLMs.
- Abstract(参考訳): 視覚言語モデル(VLM)の開発には信頼性評価が不可欠である。
しかしながら、日本のVQAベンチマークは、イングランドのベンチマークよりも大幅に改善されている。
その結果、多くの既存のベンチマークには、曖昧な質問、誤った答え、視覚的根拠のない解決が可能なインスタンス、評価信頼性の低下、モデル比較における誤解を招く結論などが含まれる。
これらの制約に対処するため、信頼性の高いVLM評価のための日本語ベンチマークの洗練されたコレクションであるJAMMEvalを紹介した。
既存の7つのベンチマークデータセットを2ラウンドの人間アノテーションで体系的に精製し、データ品質と評価信頼性を改善して構築する。
本研究では,JAMMEval上でのオープンウェイトおよびプロプライエタリなVLMの評価を行い,最近のVQAモデルの性能解析を行った。
さらに、モデル性能を反映し、実行時差を小さくし、異なる能力レベルのモデルを識別する能力を向上させるために、結果のベンチマークが評価スコアを得ることを示すことにより、改良の有効性を実証する。
VLMの信頼性評価を向上するためのデータセットとコードをリリースする。
関連論文リスト
- KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language [2.594684920405059]
韓国語における汎用的自由形視覚質問応答ベンチマークKOFFVQAを提案する。
私たちのベンチマークでは、画像とグレーティングの基準を合わせた275の質問を慎重に作成しています。
我々は,既存の評価基準を既存の手法よりもはるかに信頼性の高い評価基準として用いる手法を実験的に検証した。
論文 参考訳(メタデータ) (2025-03-31T05:04:25Z) - The Vulnerability of Language Model Benchmarks: Do They Accurately Reflect True LLM Performance? [1.3810901729134184]
大きな言語モデル(LLM)は、真の言語理解と適応性を示すのに失敗しながら、標準化されたテストで優れている。
NLP評価フレームワークの系統的解析により,評価スペクトルにまたがる広範囲にわたる脆弱性が明らかになった。
我々は、操作に抵抗し、データの汚染を最小限に抑え、ドメイン固有のタスクを評価する新しい評価方法の土台を築いた。
論文 参考訳(メタデータ) (2024-12-02T20:49:21Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。