論文の概要: Trust but Verify: Programmatic VLM Evaluation in the Wild
- arxiv url: http://arxiv.org/abs/2410.13121v1
- Date: Thu, 17 Oct 2024 01:19:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:29.459587
- Title: Trust but Verify: Programmatic VLM Evaluation in the Wild
- Title(参考訳): 信頼と検証:野生でのプログラム的VLM評価
- Authors: Viraj Prabhu, Senthil Purushwalkam, An Yan, Caiming Xiong, Ran Xu,
- Abstract要約: プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
- 参考スコア(独自算出の注目度): 62.14071929143684
- License:
- Abstract: Vision-Language Models (VLMs) often generate plausible but incorrect responses to visual queries. However, reliably quantifying the effect of such hallucinations in free-form responses to open-ended queries is challenging as it requires visually verifying each claim within the response. We propose Programmatic VLM Evaluation (PROVE), a new benchmarking paradigm for evaluating VLM responses to open-ended queries. To construct PROVE, we provide a large language model (LLM) with a high-fidelity scene-graph representation constructed from a hyper-detailed image caption, and prompt it to generate diverse question-answer (QA) pairs, as well as programs that can be executed over the scene graph object to verify each QA pair. We thus construct a benchmark of 10.5k challenging but visually grounded QA pairs. Next, to evaluate free-form model responses to queries in PROVE, we propose a programmatic evaluation strategy that measures both the helpfulness and truthfulness of a response within a unified scene graph-based framework. We benchmark the helpfulness-truthfulness trade-offs of a range of VLMs on PROVE, finding that very few are in-fact able to achieve a good balance between the two. Project page: \url{https://prove-explorer.netlify.app/}.
- Abstract(参考訳): VLM(Vision-Language Models)は、視覚的なクエリに対して、可視だが誤った応答を生成することが多い。
しかし、オープンエンドクエリに対する自由形式の応答におけるこのような幻覚の影響を確実に定量化することは、応答内の各クレームを視覚的に検証する必要があるため困難である。
オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムであるProgrammatic VLM Evaluation (PROVE)を提案する。
PROVEを構築するために、高精細画像キャプションから構築された高忠実なシーングラフ表現を備えた大規模言語モデル(LLM)を提供し、様々な質問応答(QA)ペアを生成するように促すとともに、シーングラフオブジェクト上で実行して各QAペアを検証するプログラムを提供する。
したがって、10.5kの挑戦的かつ視覚的に接地されたQAペアのベンチマークを構築した。
次に,PROVEにおけるクエリに対する自由形式のモデル応答を評価するために,統一されたシーングラフベースのフレームワークにおいて,応答の有用性と真性の両方を測定するプログラム評価戦略を提案する。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークし,両者のバランスを良好に達成できる実例はほとんどないことを示した。
プロジェクトページ: \url{https://prove-explorer.netlify.app/}。
関連論文リスト
- AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [55.14033256706175]
視覚・言語情報の統合を促進するためには,LVLM(Large Vision-Language Models)が不可欠である。
本稿では,需要評価のための自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力にまたがる7つのLVLMの広範な評価を通じて、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文 参考訳(メタデータ) (2024-10-12T08:17:03Z) - S-EQA: Tackling Situational Queries in Embodied Question Answering [48.43453390717167]
本研究では,家庭環境における状況問合せ(S-EQA)による身体的質問回答の課題を提示し,解決する。
まず, LLMの出力を包み込み, ユニークなコンセンサス・クエリと対応するコンセンサス・オブジェクトのデータセットを作成する, プロンプト・ジェネレート・評価手法を提案する。
本稿では,VQA(Visual Question Answering)において生成したオブジェクトコンセンサスからフレーム化されたクエリを用いて,状況に応じた質問に対して直接回答する際の精度を15.31%改善したことを報告した。
論文 参考訳(メタデータ) (2024-05-08T00:45:20Z) - VISREAS: Complex Visual Reasoning with Unanswerable Questions [29.398956873585796]
本稿では,新しい視覚的質問応答データセットVISREASを紹介する。
それは、共通性とオブジェクト、属性、関係の差異をトラバースし、摂動することで構成される、応答可能で解決不可能なビジュアルクエリで構成されている。
このタスクのユニークな特徴は、回答する前のイメージに対する質問応答性を検証すること、そして最先端モデルの貧弱な性能が、新しいモジュラーベースラインであるLOGIC2VISIONの設計に影響を与えたことである。
論文 参考訳(メタデータ) (2024-02-23T00:12:10Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual
Question Answering [7.640416680391081]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - How to Design Sample and Computationally Efficient VQA Models [53.65668097847456]
テキストを確率的プログラムとして表現し,イメージをオブジェクトレベルのシーングラフとして表現することが,これらのデシラタを最も満足していることが判明した。
既存のモデルを拡張して,これらのソフトプログラムとシーングラフを活用して,エンドツーエンドで質問応答ペアをトレーニングします。
論文 参考訳(メタデータ) (2021-03-22T01:48:16Z) - A Revised Generative Evaluation of Visual Dialogue [80.17353102854405]
本稿では,VisDialデータセットの改訂評価手法を提案する。
モデルが生成した回答と関連する回答の集合のコンセンサスを測定する。
DenseVisDialとして改訂された評価スキームのこれらのセットとコードをリリースする。
論文 参考訳(メタデータ) (2020-04-20T13:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。