論文の概要: Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy
- arxiv url: http://arxiv.org/abs/2402.07270v2
- Date: Sun, 5 May 2024 20:34:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 23:35:59.006874
- Title: Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy
- Title(参考訳): 分類データセットとその意味階層を利用した視覚言語モデルのオープンエンドVQAベンチマーク
- Authors: Simon Ging, María A. Bravo, Thomas Brox,
- Abstract要約: 本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
- 参考スコア(独自算出の注目度): 27.454549324141087
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evaluation of text-generative vision-language models is a challenging yet crucial endeavor. By addressing the limitations of existing Visual Question Answering (VQA) benchmarks and proposing innovative evaluation methodologies, our research seeks to advance our understanding of these models' capabilities. We propose a novel VQA benchmark based on well-known visual classification datasets which allows a granular evaluation of text-generative vision-language models and their comparison with discriminative vision-language models. To improve the assessment of coarse answers on fine-grained classification tasks, we suggest using the semantic hierarchy of the label space to ask automatically generated follow-up questions about the ground-truth category. Finally, we compare traditional NLP and LLM-based metrics for the problem of evaluating model predictions given ground-truth answers. We perform a human evaluation study upon which we base our decision on the final metric. We apply our benchmark to a suite of vision-language models and show a detailed comparison of their abilities on object, action, and attribute classification. Our contributions aim to lay the foundation for more precise and meaningful assessments, facilitating targeted progress in the exciting field of vision-language modeling.
- Abstract(参考訳): テキスト生成視覚言語モデルの評価は、難しいが重要な試みである。
既存のVisual Question Answering(VQA)ベンチマークの限界に対処し、革新的な評価手法を提案することにより、これらのモデルの能力の理解を深めることを目指している。
本稿では,テキスト生成型視覚言語モデルの詳細な評価と識別型視覚言語モデルとの比較が可能な,よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
きめ細かな分類課題に対する粗い回答の評価を改善するために,ラベル空間のセマンティックな階層を用いて,土木カテゴリーに関するフォローアップ質問を自動的に生成することを提案する。
最後に,従来のNLPとLLMに基づくメトリクスを比較し,実測値からモデル予測を評価する。
最終基準に基づく人的評価研究を行う。
このベンチマークを視覚言語モデルに適用し,対象,行動,属性の分類におけるそれらの能力の詳細な比較を示す。
我々のコントリビューションは、視覚言語モデリングのエキサイティングな分野において、より正確で有意義な評価の基礎を築くことを目的としています。
関連論文リスト
- Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。
コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。
SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文 参考訳(メタデータ) (2024-05-24T23:09:27Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - BloomVQA: Assessing Hierarchical Multi-modal Comprehension [18.21961616174999]
我々は、様々なレベルの理解を反映した絵物語に基づいて、複数の選択サンプルを収集する。
モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。
従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示す。
論文 参考訳(メタデータ) (2023-12-20T02:22:49Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。