論文の概要: Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
- arxiv url: http://arxiv.org/abs/2501.03225v1
- Date: Mon, 06 Jan 2025 18:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:10:17.792257
- Title: Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation
- Title(参考訳): 視覚言語モデル評価のための複数項目質問の自動生成
- Authors: Yuhui Zhang, Yuchang Su, Yiming Liu, Xiaohan Wang, James Burgess, Elaine Sui, Chenyu Wang, Josiah Aklilu, Alejandro Lozano, Anjiang Wei, Ludwig Schmidt, Serena Yeung-Levy,
- Abstract要約: オープンエンドの質問を自動的にマルチ選択フォーマットに変換するエージェントフレームワークであるAutoを紹介します。
Autoを用いて、既存の20のVQAデータセットを統一された多重選択フォーマットに変換することで生成されたベンチマークであるVMCBenchを構築した。
我々はVMCBench上で33の最先端ビジョン言語モデルを評価し、スケーラブルで一貫した再現可能なVLM評価のための新しい標準を設定した。
- 参考スコア(独自算出の注目度): 69.81654421834989
- License:
- Abstract: The rapid development of vision language models (VLMs) demands rigorous and reliable evaluation. However, current visual question answering (VQA) benchmarks often depend on open-ended questions, making accurate evaluation difficult due to the variability in natural language responses. To address this, we introduce AutoConverter, an agentic framework that automatically converts these open-ended questions into multiple-choice format, enabling objective evaluation while reducing the costly question creation process. Our experiments demonstrate that AutoConverter can generate correct and challenging multiple-choice questions, with VLMs demonstrating consistently similar or lower accuracy on these questions compared to human-created ones. Using AutoConverter, we construct VMCBench, a benchmark created by transforming 20 existing VQA datasets into a unified multiple-choice format, totaling 9,018 questions. We comprehensively evaluate 33 state-of-the-art VLMs on VMCBench, setting a new standard for scalable, consistent, and reproducible VLM evaluation.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な開発は、厳密で信頼性の高い評価を必要とする。
しかしながら、現在の視覚的質問応答(VQA)ベンチマークは、しばしばオープンな質問に依存するため、自然言語応答のばらつきにより正確な評価が難しい。
これを解決するために,オープンエンドの質問を自動的に複数選択形式に変換するエージェントフレームワークであるAutoConverterを導入し,コストのかかる質問作成プロセスを削減しつつ,客観的な評価を可能にする。
我々の実験は、AutoConverterが正確で挑戦的な複数の質問を生成できることを示した。
AutoConverterを使って、既存の20のVQAデータセットを統一された多重選択形式に変換することで生成されたベンチマークVMCBenchを構築し、合計9,018の質問を回答した。
我々はVMCBench上で33の最先端VLMを包括的に評価し、スケーラブルで一貫した再現可能なVLM評価のための新しい標準を設定した。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - DARE: Diverse Visual Question Answering with Robustness Evaluation [16.87867803628065]
視覚言語モデル(VLM)は、テキストのみの大規模言語モデルと視覚のみのモデルの顕著な機能を拡張する。
彼らは数え上げや空間的推論といった重要な視覚言語(VL)推論能力に苦しむ。
本稿では,ロバストネス評価を用いたDARE,Diverse Visual Question Answeringを紹介する。
論文 参考訳(メタデータ) (2024-09-26T16:31:50Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Multiple-Choice Question Generation: Towards an Automated Assessment
Framework [0.0]
トランスフォーマーをベースとした事前学習型言語モデルでは,コンテキスト段落から適切な質問を生成する能力が実証されている。
我々は,質問文と可能な回答の両方を文脈段落から生成しなければならない完全自動複数選択質問生成システム(MCQG)に焦点を当てる。
論文 参考訳(メタデータ) (2022-09-23T19:51:46Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - AVA: an Automatic eValuation Approach to Question Answering Systems [123.36351076384479]
AVAはTransformerベースの言語モデルを使用して、質問、回答、参照テキストをエンコードする。
我々の解は、F1の74.7%のスコアを達成し、一つの答えに対する人間の判断を予測する。
論文 参考訳(メタデータ) (2020-05-02T05:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。