論文の概要: Improving Automatic VQA Evaluation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2310.02567v2
- Date: Wed, 10 Jan 2024 17:00:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-11 17:05:49.961631
- Title: Improving Automatic VQA Evaluation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたVQA自動評価の改善
- Authors: Oscar Ma\~nas, Benno Krojer, Aishwarya Agrawal
- Abstract要約: 本稿では,より優れたVQAメトリックを構築するために,命令調整型大規模言語モデルのコンテキスト内学習機能を活用することを提案する。
提案手法は,VQAモデルおよびベンチマークにおける既存の指標と比較して,人間の判断と相関性が高いことを示す。
- 参考スコア(独自算出の注目度): 6.468405905503242
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 8 years after the visual question answering (VQA) task was proposed, accuracy
remains the primary metric for automatic evaluation. VQA Accuracy has been
effective so far in the IID evaluation setting. However, our community is
undergoing a shift towards open-ended generative models and OOD evaluation. In
this new paradigm, the existing VQA Accuracy metric is overly stringent and
underestimates the performance of VQA systems. Thus, there is a need to develop
more robust automatic VQA metrics that serve as a proxy for human judgment. In
this work, we propose to leverage the in-context learning capabilities of
instruction-tuned large language models (LLMs) to build a better VQA metric. We
formulate VQA evaluation as an answer-rating task where the LLM is instructed
to score the accuracy of a candidate answer given a set of reference answers.
We demonstrate the proposed metric better correlates with human judgment
compared to existing metrics across several VQA models and benchmarks. We hope
wide adoption of our metric will contribute to better estimating the research
progress on the VQA task. We plan to release the evaluation code and collected
human judgments.
- Abstract(参考訳): 視覚的質問応答(VQA)タスクが提案されてから8年後も,精度が自動評価の主要な指標である。
IID評価ではVQA精度が有効である。
しかし、我々のコミュニティは、オープンな生成モデルとOOD評価にシフトしている。
この新しいパラダイムでは、既存のVQA精度メトリックは過度に厳密であり、VQAシステムの性能を過小評価している。
したがって、人間の判断のプロキシとして機能する、より堅牢な自動VQAメトリクスを開発する必要がある。
本研究では,命令調整型大規模言語モデル(LLM)のコンテキスト内学習機能を活用して,より良いVQA尺度を構築することを提案する。
我々は、LLMに基準回答のセットが与えられた場合の候補回答の精度を評価するように指示された回答作成タスクとしてVQA評価を定式化する。
提案手法は,VQAモデルおよびベンチマークにおける既存の指標と比較して,人間の判断と相関することを示す。
VQAタスクにおける研究の進捗をよりよく見積もる上で、我々のメトリクスの広範な採用が貢献することを期待します。
評価コードを公開し、人間の判断を収集する予定です。
関連論文リスト
- Towards Flexible Evaluation for Generative Visual Question Answering [17.271448204525612]
本稿では,視覚質問応答(VQA)データセット上で,制約のないオープンエンド応答を評価するためにセマンティクスに基づく評価手法を提案する。
さらに,本論文では,VQA評価のユニークな特徴を基礎として,精巧な設計を施したセマンティックフレキシブルVQA評価器(SFVE)を提案する。
論文 参考訳(メタデータ) (2024-08-01T05:56:34Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Evaluating Open-QA Evaluation [29.43815593419996]
本研究では,大規模言語モデル(LLM)の事実を直接推定できるオープン質問回答(Open QA)タスクの評価に焦点をあてる。
オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。
論文 参考訳(メタデータ) (2023-05-21T10:40:55Z) - QAScore -- An Unsupervised Unreferenced Metric for the Question
Generation Evaluation [6.697751970080859]
質問生成(QG)は、選択された回答の集合で、ある項目に対する質問を構成するタスクを自動化することを目的としている。
QAScoreと呼ばれるQGシステムを評価するためのより良いメカニズムを提供する可能性を秘めている新しい基準フリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-10-09T19:00:39Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Adversarial VQA: A New Benchmark for Evaluating the Robustness of VQA
Models [45.777326168922635]
本稿では,新たな大規模VQAベンチマークであるAdversarial VQAを紹介する。
非熟練アノテータは比較的容易にSOTA VQAモデルに攻撃できることがわかった。
大規模な事前訓練モデルと敵のトレーニング方法はどちらも、標準的なVQA v2データセットで達成できるものよりもはるかに低いパフォーマンスしか達成できない。
論文 参考訳(メタデータ) (2021-06-01T05:54:41Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - KPQA: A Metric for Generative Question Answering Using Keyphrase Weights [64.54593491919248]
KPQA-metricは生成的質問応答システムの正当性を評価するための新しい指標である。
我々の新しい計量は、キーフレーズ予測を通じて各トークンに異なる重みを割り当てる。
提案手法は,既存の指標よりも人的判断との相関が有意に高いことを示す。
論文 参考訳(メタデータ) (2020-05-01T03:24:36Z) - Template-Based Question Generation from Retrieved Sentences for Improved
Unsupervised Question Answering [98.48363619128108]
擬似学習データを用いてQAモデルを訓練するための教師なしアプローチを提案する。
関連した検索文に簡単なテンプレートを適用してQA学習のための質問を生成すると、元の文脈文よりも、下流QAのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2020-04-24T17:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。