論文の概要: VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2404.13874v4
- Date: Thu, 03 Oct 2024 21:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:08:03.041999
- Title: VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models
- Title(参考訳): VALOR-EVAL:大規模視覚言語モデルの全体被覆と忠実度評価
- Authors: Haoyi Qiu, Wenbo Hu, Zi-Yi Dou, Nanyun Peng,
- Abstract要約: LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
- 参考スコア(独自算出の注目度): 57.43276586087863
- License:
- Abstract: Large Vision-Language Models (LVLMs) suffer from hallucination issues, wherein the models generate plausible-sounding but factually incorrect outputs, undermining their reliability. A comprehensive quantitative evaluation is necessary to identify and understand the extent of hallucinations in these models. However, existing benchmarks are often limited in scope, focusing mainly on object hallucinations. Furthermore, current evaluation methods struggle to effectively address the subtle semantic distinctions between model outputs and reference data, as well as the balance between hallucination and informativeness. To address these issues, we introduce a multi-dimensional benchmark covering objects, attributes, and relations, with challenging images selected based on associative biases. Moreover, we propose a large language model (LLM)-based two-stage evaluation framework that generalizes the popular CHAIR metric and incorporates both faithfulness and coverage into the evaluation. Experiments on 10 established LVLMs demonstrate that our evaluation metric is more comprehensive and better correlated with humans than existing work when evaluating on our challenging human-annotated benchmark dataset. Our work also highlights the critical balance between faithfulness and coverage of model outputs, and encourages future works to address hallucinations in LVLMs while keeping their outputs informative.
- Abstract(参考訳): LVLM (Large Vision-Language Models) は幻覚に悩まされ、そのモデルが可聴音を生成するが、実際には誤出力を生成し、信頼性を損なう。
これらのモデルにおける幻覚の程度を同定し、理解するためには、包括的な定量的評価が必要である。
しかしながら、既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
さらに、現在の評価手法では、モデル出力と参照データとの微妙なセマンティックな区別と、幻覚と情報性のバランスを効果的に解決するのに苦労している。
これらの問題に対処するために, 対象, 属性, 関係性をカバーする多次元ベンチマークを導入する。
さらに,一般的なCHAIRメトリックを一般化し,忠実度と包括性の両方を評価に取り入れた,LLMに基づく2段階評価フレームワークを提案する。
確立された10のLVLMに関する実験は、我々の評価基準が既存の作業よりも包括的で、人間との相関性が高いことを実証している。
我々の研究は、モデル出力の忠実さと包括性の間の重要なバランスを強調し、将来の研究がLVLMの幻覚に対処しつつ、アウトプットを情報的に保つことを奨励している。
関連論文リスト
- Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models [67.89204055004028]
本稿では,既存の幻覚ベンチマークの信頼性と妥当性を評価するために,幻覚ベンチマーク品質測定フレームワーク(HQM)を提案する。
GPT-4oやGemini-Vision-Proを含む10以上の代表的なLVLMを広範囲に評価し、既存のモデルにおける幻覚の問題を詳細に分析する。
論文 参考訳(メタデータ) (2024-06-24T20:08:07Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Open-ended VQA benchmarking of Vision-Language models by exploiting Classification datasets and their semantic hierarchy [27.454549324141087]
本稿では、よく知られた視覚分類データセットに基づく新しいVQAベンチマークを提案する。
また,ラベル空間のセマンティックな階層構造を用いて,基底構造カテゴリに関するフォローアップ質問を自動的に生成することを提案する。
私たちの貢献は、より正確で有意義な評価の基礎を築くことを目的としています。
論文 参考訳(メタデータ) (2024-02-11T18:26:18Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - FAITHSCORE: Evaluating Hallucinations in Large Vision-Language Models [17.9443875180437]
本稿では,大規模な視覚言語モデル(LVLM)から生成した自由形式の回答の忠実度を測定するための基準フリーできめ細かな評価指標であるFAITHSCOREを紹介する。
現状のLVLMにおける幻覚を,データセット上でFAITHSCOREを用いて測定する。
その結果、現在のシステムは、画像に不満足な幻覚コンテンツを生成する傾向にあり、将来の改善の余地が残されていることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-02T01:21:45Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。