Fugu-MT 論文翻訳(概要): VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models

論文の概要: VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models

arxiv url: http://arxiv.org/abs/2404.13874v1
Date: Mon, 22 Apr 2024 04:49:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-23 15:16:29.693002
Title: VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models
Title（参考訳）: VALOR-EVAL:大規模視覚言語モデルの全体被覆と忠実度評価
Authors: Haoyi Qiu, Wenbo Hu, Zi-Yi Dou, Nanyun Peng,
Abstract要約: LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
参考スコア（独自算出の注目度）: 57.43276586087863
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) suffer from hallucination issues, wherein the models generate plausible-sounding but factually incorrect outputs, undermining their reliability. A comprehensive quantitative evaluation is necessary to identify and understand the extent of hallucinations in these models. However, existing benchmarks are often limited in scope, focusing mainly on object hallucinations. Furthermore, current evaluation methods struggle to effectively address the subtle semantic distinctions between model outputs and reference data, as well as the balance between hallucination and informativeness. To address these issues, we introduce a multi-dimensional benchmark covering objects, attributes, and relations, with challenging images selected based on associative biases. Moreover, we propose an large language model (LLM)-based two-stage evaluation framework that generalizes the popular CHAIR metric and incorporates both faithfulness and coverage into the evaluation. Experiments on 10 established LVLMs demonstrate that our evaluation metric is more comprehensive and better correlated with humans than existing work when evaluating on our challenging human annotated benchmark dataset. Our work also highlights the critical balance between faithfulness and coverage of model outputs, and encourages future works to address hallucinations in LVLMs while keeping their outputs informative.
Abstract（参考訳）: LVLM (Large Vision-Language Models) は幻覚に悩まされ、そのモデルが可聴音を生成するが、実際には誤出力を生成し、信頼性を損なう。これらのモデルにおける幻覚の程度を同定し、理解するためには、包括的な定量的評価が必要である。しかしながら、既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。さらに、現在の評価手法では、モデル出力と参照データとの微妙なセマンティックな区別と、幻覚と情報性のバランスを効果的に解決するのに苦労している。これらの問題に対処するために, 対象, 属性, 関係性をカバーする多次元ベンチマークを導入する。さらに,一般的なCHAIRメトリックを一般化し,忠実度と包括性の両方を評価に取り入れた,LLMに基づく2段階評価フレームワークを提案する。確立された10のLVLMの実験では、人間の注釈付きベンチマークデータセットを評価する際に、既存の作業よりも評価指標がより包括的で人間との相関性が高いことが示されている。我々の研究は、モデル出力の忠実さと包括性の間の重要なバランスを強調し、将来の研究がLVLMの幻覚に対処しつつ、アウトプットを情報的に保つことを奨励している。

関連論文リスト

H-POPE: Hierarchical Polling-based Probing Evaluation of Hallucinations in Large Vision-Language Models [0.0]
対象物の存在と属性の幻覚を評価する粗粒度ベンチマークであるH-POPEを提案する。評価の結果,モデルが物体の存在に幻覚を与える傾向がみられ,さらに微粒な属性が生じる傾向が示唆された。
論文参考訳（メタデータ） (2024-11-06T17:55:37Z)
VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。 VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文参考訳（メタデータ） (2024-10-09T17:46:34Z)
FIHA: Autonomous Hallucination Evaluation in Vision-Language Models with Davidson Scene Graphs [12.533011020126855]
FIHA (Autonomous Fine-grained Hallucination evAluation Evaluation in LVLMs) について紹介する。 FIHAは、LLMフリーでアノテーションフリーな方法で幻覚LVLMにアクセスし、異なる種類の幻覚間の依存性をモデル化することができた。 FIHA-v1 というベンチマークを導入し,MSCOCO と Foggy の様々な画像に対する多様な質問からなる。
論文参考訳（メタデータ） (2024-09-20T16:19:53Z)
Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
現在のマルチモーダル大言語モデル(MLLM)に悩まされる幻覚実世界のシナリオから得られた20,000以上のサンプルからなる関係幻覚を対象とするベンチマークであるReefknotを紹介する。 3つの異なるタスクに対する比較評価の結果、関係幻覚を緩和する現在のMLLMの能力に重大な欠点があることが判明した。
論文参考訳（メタデータ） (2024-08-18T10:07:02Z)
LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。 JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文参考訳（メタデータ） (2024-06-26T14:56:13Z)
Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models [67.89204055004028]
LVLM(Large Vision-Language Models)は幻覚に悩まされている。以前の研究では、さまざまなタイプのタスクと評価指標を特徴とする一連のベンチマークが提案されている。本稿では,既存の幻覚ベンチマークの信頼性と妥当性を評価するために,幻覚ベンチマーク品質測定フレームワーク(HQM)を提案する。
論文参考訳（メタデータ） (2024-06-24T20:08:07Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
"Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。 NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。本研究は,Halucination rate,Halucination rate,Halucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sorucination rate,Sr。
論文参考訳（メタデータ） (2023-12-18T17:18:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。