論文の概要: Hal-Eval: A Universal and Fine-grained Hallucination Evaluation
Framework for Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2402.15721v1
- Date: Sat, 24 Feb 2024 05:14:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-27 17:22:31.356673
- Title: Hal-Eval: A Universal and Fine-grained Hallucination Evaluation
Framework for Large Vision Language Models
- Title(参考訳): Hal-Eval:大規模視覚言語モデルのための普遍的できめ細かい幻覚評価フレームワーク
- Authors: Chaoya Jiang, Wei Ye, Mengfan Dong, Hongrui Jia, Haiyang Xu, Ming Yan,
Ji Zhang, Shikun Zhang
- Abstract要約: 我々は,新しいカテゴリーであるイベント幻覚(Event Hallucination)を特徴とする,幻覚の洗練された分類を導入した。
次に,多種多様な幻覚からなる微粒な幻覚データの生成とフィルタリングに高度LLMを利用する。
提案するベンチマークでは,広帯域の幻覚に対処するLVLMの能力を顕著に評価している。
- 参考スコア(独自算出の注目度): 36.98580310654515
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision Language Models exhibit remarkable capabilities but struggle
with hallucinations inconsistencies between images and their descriptions.
Previous hallucination evaluation studies on LVLMs have identified
hallucinations in terms of objects, attributes, and relations but overlooked
complex hallucinations that create an entire narrative around a fictional
entity. In this paper, we introduce a refined taxonomy of hallucinations,
featuring a new category: Event Hallucination. We then utilize advanced LLMs to
generate and filter fine grained hallucinatory data consisting of various types
of hallucinations, with a particular focus on event hallucinations, laying the
groundwork for integrating discriminative and generative evaluation methods
within our universal evaluation framework. The proposed benchmark distinctively
assesses LVLMs ability to tackle a broad spectrum of hallucinations, making it
a reliable and comprehensive tool for gauging LVLMs efficacy in handling
hallucinations. We will release our code and data.
- Abstract(参考訳): 大きな視覚言語モデルは優れた能力を示すが、画像とそれらの記述との矛盾に苦しむ。
これまでのLVLMの幻覚評価研究は、対象、属性、関係の観点で幻覚を特定してきたが、架空の実体を取り巻く物語全体を形作る複雑な幻覚を見落としていた。
本稿では,新しいカテゴリーであるイベント幻覚を特徴とする幻覚の洗練された分類法を提案する。
次に,高度なllmを用いて様々な種類の幻覚からなる細粒度幻覚データを生成・フィルタリングし,特にイベント幻覚に焦点をあて,普遍的評価枠組みにおける判別・生成評価手法の統合に向けた基礎研究を行った。
提案したベンチマークは,幻覚の幅広い領域に対処するLVLMの能力を顕著に評価し,幻覚の処理におけるLVLMの有効性を高めるための信頼性と総合的なツールである。
コードとデータをリリースします。
関連論文リスト
- A Survey on Hallucination in Large Vision-Language Models [19.23812460169524]
LVLM(Large Vision-Language Models)は、実践的な実装の可能性から、AIの世界において注目を集めている。
しかし,「幻覚」は,現実の視覚的内容とそれに対応するテキスト生成のミスアライメントが,LVLMを活用する上で大きな課題となる。
我々は,LVLM関連幻覚を解明し,今後の緩和を促進するために検討する。
論文 参考訳(メタデータ) (2024-02-01T00:33:21Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction
Data [106.42508109138788]
機械生成データに固有の幻覚は未発見である。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language
Models [114.86769234616902]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluation and Analysis of Hallucination in Large Vision-Language Models [49.19829480199372]
LVLM(Large Vision-Language Models)は近年大きな成功を収めている。
LVLMは今でも幻覚に悩まされている。
幻覚とは、視覚入力に存在しないLVLMの応答の情報を指す。
論文 参考訳(メタデータ) (2023-08-29T08:51:24Z) - HaluEval: A Large-Scale Hallucination Evaluation Benchmark for Large
Language Models [146.87696738011712]
大型言語モデル(LLM)は幻覚を生成する傾向があり、すなわち、ソースと矛盾したり、事実の知識によって検証できないコンテンツである。
言語モデル(HaluEval)のための幻覚評価ベンチマーク(Halucination Evaluation benchmark)を導入する。
論文 参考訳(メタデータ) (2023-05-19T15:36:27Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。