論文の概要: FaithScore: Fine-grained Evaluations of Hallucinations in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2311.01477v2
- Date: Thu, 26 Sep 2024 19:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:50:02.501436
- Title: FaithScore: Fine-grained Evaluations of Hallucinations in Large Vision-Language Models
- Title(参考訳): FaithScore:大規模視覚言語モデルにおける幻覚のきめ細かい評価
- Authors: Liqiang Jing, Ruosen Li, Yunmo Chen, Xinya Du,
- Abstract要約: 本稿では,大規模な視覚言語モデル(LVLM)から生成した自由形式の回答の忠実度を測定するための基準フリーできめ細かな評価指標であるFaithScoreを紹介する。
FaithScoreの評価は、まず検証が必要な記述文を含むサブ文を特定し、次にこれらのサブ文から包括的な原子事実のリストを抽出し、最後に粒度の細かい原子事実と入力画像との整合性検証を行う。
その結果、現在のシステムは、画像に不満足な幻覚コンテンツを生成する傾向にあり、将来の改善の余地が残されていることが明らかとなった。
- 参考スコア(独自算出の注目度): 16.94442454848848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FaithScore (Faithfulness to Atomic Image Facts Score), a reference-free and fine-grained evaluation metric that measures the faithfulness of the generated free-form answers from large vision-language models (LVLMs). The FaithScore evaluation first identifies sub-sentences containing descriptive statements that need to be verified, then extracts a comprehensive list of atomic facts from these sub-sentences, and finally conducts consistency verification between fine-grained atomic facts and the input image. Meta-evaluation demonstrates that our metric highly correlates with human judgments of faithfulness. We collect two benchmark datasets (i.e. LLaVA-1k and MSCOCO-Cap) for evaluating LVLMs instruction-following hallucinations. We measure hallucinations in state-of-the-art LVLMs with FaithScore on the datasets. Results reveal that current systems are prone to generate hallucinated content unfaithful to the image, which leaves room for future improvements. We hope our metric FaithScore can help evaluate future LVLMs in terms of faithfulness and provide insightful advice for enhancing LVLMs' faithfulness.
- Abstract(参考訳): 本稿では,大規模な視覚言語モデル(LVLM)から生成した自由形式の回答の忠実度を測定するための基準フリーできめ細かな評価指標であるFaithScore(Faithfulness to Atomic Image Facts Score)を紹介する。
FaithScoreの評価は、まず検証が必要な記述文を含むサブ文を特定し、次にこれらのサブ文から包括的な原子事実のリストを抽出し、最後に粒度の細かい原子事実と入力画像との整合性検証を行う。
メタ評価は、我々の測定基準が忠実性の人間の判断と非常に相関していることを示している。
LVLMの指示追従幻覚を評価するために2つのベンチマークデータセット(LLaVA-1kとMSCOCO-Cap)を収集する。
最新のLVLMにおける幻覚を、データセット上でFaithScoreを用いて測定する。
その結果、現在のシステムは、画像に不満足な幻覚コンテンツを生成する傾向にあり、将来の改善の余地が残されていることが明らかとなった。
当社のメトリクスであるFaithScoreは、今後のLVLMを忠実性の観点から評価し、LVLMの忠実性を高めるための洞察に富んだアドバイスを期待する。
関連論文リスト
- Evaluating the Quality of Hallucination Benchmarks for Large Vision-Language Models [67.89204055004028]
LVLM(Large Vision-Language Models)は幻覚に悩まされている。
以前の研究では、さまざまなタイプのタスクと評価指標を特徴とする一連のベンチマークが提案されている。
本稿では,既存の幻覚ベンチマークの信頼性と妥当性を評価するために,幻覚ベンチマーク品質測定フレームワーク(HQM)を提案する。
論文 参考訳(メタデータ) (2024-06-24T20:08:07Z) - HalluDial: A Large-Scale Benchmark for Automatic Dialogue-Level Hallucination Evaluation [19.318217051269382]
大規模言語モデル(LLM)は自然言語処理(NLP)の分野で大きく進歩した。
HalluDialは、対話レベルの幻覚自動評価のための、初めての総合的な大規模ベンチマークである。
ベンチマークには4,094の対話があり、合計146,856のサンプルが含まれている。
論文 参考訳(メタデータ) (2024-06-11T08:56:18Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,これまでの研究で注目されていたLVLMの幻覚の要因を明らかにした。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - TofuEval: Evaluating Hallucinations of LLMs on Topic-Focused Dialogue Summarization [29.49641083851667]
様々な大きさのLPMによって生成される話題中心の対話要約に関する新しい評価ベンチマークを提案する。
我々はこれらの要約の事実整合性に関する二項文レベルの人文アノテーションと、事実整合性のある文章の詳細な説明を提供する。
論文 参考訳(メタデータ) (2024-02-20T18:58:49Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。