論文の概要: ZINA: Multimodal Fine-grained Hallucination Detection and Editing
- arxiv url: http://arxiv.org/abs/2506.13130v1
- Date: Mon, 16 Jun 2025 06:27:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.583577
- Title: ZINA: Multimodal Fine-grained Hallucination Detection and Editing
- Title(参考訳): ZINA:マルチモーダルきめ細かい幻覚検出と編集
- Authors: Yuiga Wada, Kazuki Matsuda, Komei Sugiura, Graham Neubig,
- Abstract要約: MLLM(Multimodal Large Language Models)はしばしば幻覚を発生させ、出力は視覚的内容から逸脱する。
本稿では,MLLMの微細な幻覚の検出と編集を行う新しいタスクを提案する。
ZINAは,角化したスパンをきめ細かいレベルで識別し,エラータイプを6つのカテゴリに分類し,適切な改善を提案する。
- 参考スコア(独自算出の注目度): 46.2482873419289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) often generate hallucinations, where the output deviates from the visual content. Given that these hallucinations can take diverse forms, detecting hallucinations at a fine-grained level is essential for comprehensive evaluation and analysis. To this end, we propose a novel task of multimodal fine-grained hallucination detection and editing for MLLMs. Moreover, we propose ZINA, a novel method that identifies hallucinated spans at a fine-grained level, classifies their error types into six categories, and suggests appropriate refinements. To train and evaluate models for this task, we constructed VisionHall, a dataset comprising 6.9k outputs from twelve MLLMs manually annotated by 211 annotators, and 20k synthetic samples generated using a graph-based method that captures dependencies among error types. We demonstrated that ZINA outperformed existing methods, including GPT-4o and LLama-3.2, in both detection and editing tasks.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)はしばしば幻覚を発生させ、出力は視覚的内容から逸脱する。
これらの幻覚は多種多様な形態を採ることができることを考えると、よりきめ細かいレベルで幻覚を検出することは総合的な評価と分析に不可欠である。
そこで本研究では,MLLMの微細な幻覚の検出と編集を行う新しいタスクを提案する。
さらに, 幻覚的スパンをきめ細かいレベルで識別し, エラータイプを6つのカテゴリに分類し, 適切な改善を提案するZINAを提案する。
このタスクのモデルをトレーニングし,評価するためにVisionHallを構築した。このデータセットは,手動で注釈付けされた12のMLLMから6.9kの出力と,エラータイプ間の依存関係をキャプチャするグラフベース手法を用いて生成された20kの合成サンプルからなる。
GPT-4o や LLama-3.2 などの既存の手法では,ZINA が検出タスクと編集タスクの両方において優れていたことが実証された。
関連論文リスト
- MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - FG-PRM: Fine-grained Hallucination Detection and Mitigation in Language Model Mathematical Reasoning [10.709365940160685]
既存のアプローチは、主に幻覚の存在を検知するが、それらのタイプや表現の微妙な理解は欠如している。
数学的推論タスクにおける一般的な幻覚を6つのタイプに分類する包括的分類法を導入する。
次に,FG-PRM(FG-PRM)を提案する。
論文 参考訳(メタデータ) (2024-10-08T19:25:26Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。