論文の概要: Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy
- arxiv url: http://arxiv.org/abs/2402.07270v1
- Date: Sun, 11 Feb 2024 18:26:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:31:08.765685
- Title: Open-ended VQA benchmarking of Vision-Language models by exploiting
Classification datasets and their semantic hierarchy
- Title(参考訳): 分類データセットとその意味階層を利用した視覚言語モデルのオープンエンドVQAベンチマーク
- Authors: Simon Ging, Mar\'ia A. Bravo, Thomas Brox
- Abstract要約: 本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
- 参考スコア(独自算出の注目度): 32.083896395844924
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The evaluation of text-generative vision-language models is a challenging yet
crucial endeavor. By addressing the limitations of existing Visual Question
Answering (VQA) benchmarks and proposing innovative evaluation methodologies,
our research seeks to advance our understanding of these models' capabilities.
We propose a novel VQA benchmark based on well-known visual classification
datasets which allows a granular evaluation of text-generative vision-language
models and their comparison with discriminative vision-language models. To
improve the assessment of coarse answers on fine-grained classification tasks,
we suggest using the semantic hierarchy of the label space to ask automatically
generated follow-up questions about the ground-truth category. Finally, we
compare traditional NLP and LLM-based metrics for the problem of evaluating
model predictions given ground-truth answers. We perform a human evaluation
study upon which we base our decision on the final metric. We apply our
benchmark to a suite of vision-language models and show a detailed comparison
of their abilities on object, action, and attribute classification. Our
contributions aim to lay the foundation for more precise and meaningful
assessments, facilitating targeted progress in the exciting field of
vision-language modeling.
- Abstract(参考訳): テキスト生成視覚言語モデルの評価は、難しいが重要な試みである。
既存のvqa(visual question answering)ベンチマークの限界に対処し,革新的な評価手法を提案することで,これらのモデルの能力の理解を深めようとしている。
本稿では,テキスト生成型視覚言語モデルの詳細な評価と識別型視覚言語モデルとの比較が可能な,よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
きめ細かな分類課題に対する粗い回答の評価を改善するために,ラベル空間のセマンティックな階層を用いて,土木カテゴリーに関するフォローアップ質問を自動的に生成することを提案する。
最後に,従来のNLPとLLMに基づくメトリクスを比較し,実測値からモデル予測を評価する。
我々は、最終指標に基づいて決定を基礎とする人間評価研究を行う。
このベンチマークを視覚言語モデルに適用し,対象,行動,属性の分類におけるそれらの能力の詳細な比較を示す。
我々の貢献は、視覚言語モデリングのエキサイティングな分野において、より正確で有意義な評価の基礎を築くことを目的としています。
関連論文リスト
- Q-Align: Teaching LMMs for Visual Scoring via Discrete Text-Defined
Levels [95.44077384918725]
スコアの代わりにテキスト定義のレーティングレベルを持つ大規模マルチモーダリティモデル(LMM)を提案する。
提案したQ-Alignは、画像品質評価(IQA)、画像美学評価(IAA)、映像品質評価(VQA)タスクにおける最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T16:10:25Z) - BloomVQA: Assessing Hierarchical Multi-modal Comprehension [19.133251944065783]
我々は、様々なレベルの理解を反映した絵物語に基づいて、複数の選択サンプルを収集する。
モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。
論文 参考訳(メタデータ) (2023-12-20T02:22:49Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [72.52996858794533]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
まず,大規模言語モデルの助けを借りて実世界のプロンプトリストを解析し,テキスト・ビデオ生成のための新しいプロンプトリストを作成する。
次に、視覚的品質、コンテンツ品質、動作品質、テキストキャプションアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - Advancing the Evaluation of Traditional Chinese Language Models: Towards
a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。
これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。
本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文 参考訳(メタデータ) (2023-09-15T14:52:23Z) - An Examination of the Compositionality of Large Generative
Vision-Language Models [8.586311439906224]
GVLM(Generative Vision-Language Models)はマルチモーダル・インストラクション・チューニングによって構築されている。
既存の評価指標とベンチマークは、主にCLIPのような対照的なモデルの評価に焦点を当てている。
本稿では,GVLMを評価するための潜在的評価指標について検討し,構成性を評価するのに適した仮説生成スコア法について述べる。
論文 参考訳(メタデータ) (2023-08-21T06:50:29Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill
Sets [72.54255857335549]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models:
Challenges on Granularity and Specificity [47.59279298300943]
本稿では、実世界のゼロショット認識タスクにおいて、視覚言語モデル(VLM)を評価するための革新的なベンチマークを紹介する。
本研究では,画像ネットとMS-COCOデータセットを用いて,概念の粒度レベルでの認識におけるモデルの一貫性を評価する。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z) - Towards explainable evaluation of language models on the semantic
similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。
まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。
第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文 参考訳(メタデータ) (2022-09-08T11:40:57Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。