Fugu-MT 論文翻訳(概要): Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy

論文の概要: Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy

arxiv url: http://arxiv.org/abs/2402.07270v1
Date: Sun, 11 Feb 2024 18:26:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 16:31:08.765685
Title: Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy
Title（参考訳）: 分類データセットとその意味階層を利用した視覚言語モデルのオープンエンドVQAベンチマーク
Authors: Simon Ging, Mar\'ia A. Bravo, Thomas Brox
Abstract要約: 本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
参考スコア（独自算出の注目度）: 32.083896395844924
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: The evaluation of text-generative vision-language models is a challenging yet crucial endeavor. By addressing the limitations of existing Visual Question Answering (VQA) benchmarks and proposing innovative evaluation methodologies, our research seeks to advance our understanding of these models' capabilities. We propose a novel VQA benchmark based on well-known visual classification datasets which allows a granular evaluation of text-generative vision-language models and their comparison with discriminative vision-language models. To improve the assessment of coarse answers on fine-grained classification tasks, we suggest using the semantic hierarchy of the label space to ask automatically generated follow-up questions about the ground-truth category. Finally, we compare traditional NLP and LLM-based metrics for the problem of evaluating model predictions given ground-truth answers. We perform a human evaluation study upon which we base our decision on the final metric. We apply our benchmark to a suite of vision-language models and show a detailed comparison of their abilities on object, action, and attribute classification. Our contributions aim to lay the foundation for more precise and meaningful assessments, facilitating targeted progress in the exciting field of vision-language modeling.
Abstract（参考訳）: テキスト生成視覚言語モデルの評価は、難しいが重要な試みである。既存のvqa(visual question answering)ベンチマークの限界に対処し,革新的な評価手法を提案することで,これらのモデルの能力の理解を深めようとしている。本稿では,テキスト生成型視覚言語モデルの詳細な評価と識別型視覚言語モデルとの比較が可能な,よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。きめ細かな分類課題に対する粗い回答の評価を改善するために,ラベル空間のセマンティックな階層を用いて,土木カテゴリーに関するフォローアップ質問を自動的に生成することを提案する。最後に,従来のNLPとLLMに基づくメトリクスを比較し,実測値からモデル予測を評価する。我々は、最終指標に基づいて決定を基礎とする人間評価研究を行う。このベンチマークを視覚言語モデルに適用し,対象,行動,属性の分類におけるそれらの能力の詳細な比較を示す。我々の貢献は、視覚言語モデリングのエキサイティングな分野において、より正確で有意義な評価の基礎を築くことを目的としています。

関連論文リスト

Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。 Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文参考訳（メタデータ） (2025-10-13T05:51:22Z)
Adapting Vision-Language Models for Evaluating World Models [24.813041196394582]
データおよび計算制約下でのシミュレーション環境におけるロールアウトに対する視覚言語評価手法であるUNIVERSEを提案する。本研究では,タスク形式,コンテキスト長,サンプリング戦略,データ構成を網羅した,完全,部分的,パラメータ効率の微調整を大規模に検討する。その結果得られた統合評価器は、単一のチェックポイントを使用してタスク固有のベースラインのパフォーマンスにマッチする。
論文参考訳（メタデータ） (2025-06-22T09:53:28Z)
KOFFVQA: An Objectively Evaluated Free-form VQA Benchmark for Large Vision-Language Models in the Korean Language [2.594684920405059]
韓国語における汎用的自由形視覚質問応答ベンチマークKOFFVQAを提案する。私たちのベンチマークでは、画像とグレーティングの基準を合わせた275の質問を慎重に作成しています。我々は,既存の評価基準を既存の手法よりもはるかに信頼性の高い評価基準として用いる手法を実験的に検証した。
論文参考訳（メタデータ） (2025-03-31T05:04:25Z)
Enhancing Visual-Language Modality Alignment in Large Vision Language Models via Self-Improvement [102.22911097049953]
SIMAは、自己改善を通じて視覚的および言語的モダリティアライメントを強化するフレームワークである。コンテキスト内自己批判機構を使用して、プライオリティチューニングのためのレスポンスペアを選択する。 SIMAは従来の手法よりも優れたモダリティアライメントを実現することを実証する。
論文参考訳（メタデータ） (2024-05-24T23:09:27Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文参考訳（メタデータ） (2024-04-22T04:49:22Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
BloomVQA: Assessing Hierarchical Multi-modal Comprehension [18.21961616174999]
我々は、様々なレベルの理解を反映した絵物語に基づいて、複数の選択サンプルを収集する。モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示す。
論文参考訳（メタデータ） (2023-12-20T02:22:49Z)
Advancing the Evaluation of Traditional Chinese Language Models: Towards a Comprehensive Benchmark Suite [17.764840326809797]
本稿では,既存の英語データセットを活用し,中国語の言語モデルを評価するための新しいベンチマークセットを提案する。これらのベンチマークには、コンテキスト質問、要約、分類、テーブル理解など、幅広いタスクが含まれている。本稿では,これらのベンチマークを用いて,GPT-3.5,台湾-LLaMa-v1.0,モデル7-Cの性能評価を行った。
論文参考訳（メタデータ） (2023-09-15T14:52:23Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Towards explainable evaluation of language models on the semantic similarity of visual concepts [0.0]
本稿では,視覚語彙の意味的類似性に焦点をあて,ハイパフォーマンスな事前学習言語モデルの振る舞いを考察する。まず、検索したインスタンスの概念的品質を理解するために必要となる、説明可能な評価指標の必要性に対処する。第二に、健全なクエリセマンティクスに対する敵対的な介入は、不透明なメトリクスの脆弱性を露呈し、学習された言語表現におけるパターンを強調します。
論文参考訳（メタデータ） (2022-09-08T11:40:57Z)
ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。 20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文参考訳（メタデータ） (2022-04-19T10:23:42Z)
A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。 DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文参考訳（メタデータ） (2020-04-20T13:26:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。