論文の概要: Unified Hallucination Detection for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2402.03190v3
- Date: Tue, 20 Feb 2024 16:47:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 11:38:08.388620
- Title: Unified Hallucination Detection for Multimodal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのための統一幻覚検出
- Authors: Xiang Chen and Chenxi Wang and Yida Xue and Ningyu Zhang and Xiaoyan
Yang and Qiang Li and Yue Shen and Lei Liang and Jinjie Gu and Huajun Chen
- Abstract要約: マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
- 参考スコア(独自算出の注目度): 45.80856612068866
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant strides in multimodal tasks, Multimodal Large Language
Models (MLLMs) are plagued by the critical issue of hallucination. The reliable
detection of such hallucinations in MLLMs has, therefore, become a vital aspect
of model evaluation and the safeguarding of practical application deployment.
Prior research in this domain has been constrained by a narrow focus on
singular tasks, an inadequate range of hallucination categories addressed, and
a lack of detailed granularity. In response to these challenges, our work
expands the investigative horizons of hallucination detection. We present a
novel meta-evaluation benchmark, MHaluBench, meticulously crafted to facilitate
the evaluation of advancements in hallucination detection methods.
Additionally, we unveil a novel unified multimodal hallucination detection
framework, UNIHD, which leverages a suite of auxiliary tools to validate the
occurrence of hallucinations robustly. We demonstrate the effectiveness of
UNIHD through meticulous evaluation and comprehensive analysis. We also provide
strategic insights on the application of specific tools for addressing various
categories of hallucinations.
- Abstract(参考訳): マルチモーダルなタスクの大幅な進歩にもかかわらず、マルチモーダル大規模言語モデル(mllm)は幻覚の問題に苦しめられている。
MLLMにおけるこのような幻覚の確実な検出は、モデル評価と実用的なアプリケーション展開の保護において重要な側面となっている。
この領域における以前の研究は、特異なタスク、不適切な範囲の幻覚圏、詳細な粒度の欠如によって制限されてきた。
これらの課題に対応するため、本研究は幻覚検出の探究的地平を広げる。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
さらに,幻覚の発生を確実に検証するための補助的ツール群を活用した,新しい統合型マルチモーダル幻覚検出フレームワークであるUNIHDを公表した。
精巧な評価と包括的分析によるUNIHDの有効性を実証した。
また,幻覚の様々なカテゴリーに対処するための具体的ツールの適用に関する戦略的洞察も提供する。
関連論文リスト
- Detecting and Evaluating Medical Hallucinations in Large Vision Language Models [22.30139330566514]
大規模ビジョン言語モデル(LVLM)は、医療アプリケーションにとってますます不可欠なものになっている。
LVLMは幻覚への感受性を継承する。
幻覚検出と評価に特化して設計された最初のベンチマークであるMed-HallMarkを紹介する。
また,正確な幻覚検出のための医療用LVLMであるMedHallDetectorも紹介した。
論文 参考訳(メタデータ) (2024-06-14T17:14:22Z) - Hallucination of Multimodal Large Language Models: A Survey [40.73148186369018]
マルチモーダル大規模言語モデル(MLLM)は,多モーダルタスクにおいて顕著な進歩と顕著な能力を示した。
これらの有望な発展にもかかわらず、MLLMは視覚的内容と矛盾する出力をしばしば生成する。
本調査は,MLLMにおける幻覚の理解を深め,この分野のさらなる進歩を促すことを目的としている。
論文 参考訳(メタデータ) (2024-04-29T17:59:41Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [48.065569871444275]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Fine-grained Hallucination Detection and Editing for Language Models [109.56911670376932]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - Towards Mitigating Hallucination in Large Language Models via
Self-Reflection [63.2543947174318]
大規模言語モデル(LLM)は、質問応答(QA)タスクを含む生成的および知識集約的なタスクを約束している。
本稿では,広範に採用されているLCMとデータセットを用いた医療再生QAシステムにおける幻覚現象を解析する。
論文 参考訳(メタデータ) (2023-10-10T03:05:44Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Siren's Song in the AI Ocean: A Survey on Hallucination in Large
Language Models [116.01843550398183]
大規模言語モデル(LLM)は、様々な下流タスクで顕著な機能を示している。
LLMは時折、ユーザ入力から分岐するコンテンツを生成し、以前生成されたコンテキストと矛盾する。
論文 参考訳(メタデータ) (2023-09-03T16:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。