論文の概要: CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2405.13684v1
- Date: Wed, 22 May 2024 14:25:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 23:45:08.114712
- Title: CrossCheckGPT: Universal Hallucination Ranking for Multimodal Foundation Models
- Title(参考訳): CrossCheckGPT:マルチモーダルファンデーションモデルのためのユニバーサル幻覚ランキング
- Authors: Guangzhi Sun, Potsawee Manakul, Adian Liusie, Kunat Pipatanakul, Chao Zhang, Phil Woodland, Mark Gales,
- Abstract要約: 本研究は,マルチモーダル基礎モデルの基準自由幻覚ランキングであるCrossCheckGPTを提案する。
CrossCheckGPTの中核となる考え方は、異なる独立したシステムによって同じ幻覚コンテンツが生成される可能性は低いということである。
本手法の適用性について,テキスト,画像,音声視覚領域など,様々な形態の幻覚のランク付けについて紹介する。
- 参考スコア(独自算出の注目度): 19.209135063841895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal foundation models are prone to hallucination, generating outputs that either contradict the input or are not grounded by factual information. Given the diversity in architectures, training data and instruction tuning techniques, there can be large variations in systems' susceptibility to hallucinations. To assess system hallucination robustness, hallucination ranking approaches have been developed for specific tasks such as image captioning, question answering, summarization, or biography generation. However, these approaches typically compare model outputs to gold-standard references or labels, limiting hallucination benchmarking for new domains. This work proposes "CrossCheckGPT", a reference-free universal hallucination ranking for multimodal foundation models. The core idea of CrossCheckGPT is that the same hallucinated content is unlikely to be generated by different independent systems, hence cross-system consistency can provide meaningful and accurate hallucination assessment scores. CrossCheckGPT can be applied to any model or task, provided that the information consistency between outputs can be measured through an appropriate distance metric. Focusing on multimodal large language models that generate text, we explore two information consistency measures: CrossCheck-explicit and CrossCheck-implicit. We showcase the applicability of our method for hallucination ranking across various modalities, namely the text, image, and audio-visual domains. Further, we propose the first audio-visual hallucination benchmark, "AVHalluBench", and illustrate the effectiveness of CrossCheckGPT, achieving correlations of 98% and 89% with human judgements on MHaluBench and AVHalluBench, respectively.
- Abstract(参考訳): マルチモーダル基礎モデルは幻覚を起こす傾向があり、入力に矛盾する出力を生成するか、事実情報を根拠にしない。
アーキテクチャの多様性、トレーニングデータ、命令チューニングのテクニックを考えると、幻覚に対するシステムの感受性には大きなバリエーションがある。
システム幻覚の堅牢性を評価するため,画像キャプション,質問応答,要約,伝記生成などの特定のタスクに対して,幻覚ランキング手法が開発されている。
しかしながら、これらのアプローチは一般的にモデル出力を金標準基準やラベルと比較し、新しい領域に対する幻覚ベンチマークを制限する。
本研究は,マルチモーダル基礎モデルの基準自由幻覚ランキングであるCrossCheckGPTを提案する。
CrossCheckGPTの中核となる考え方は、同じ幻覚コンテンツは異なる独立したシステムによって生成されないため、システム間の整合性は有意義で正確な幻覚評価スコアを提供する。
CrossCheckGPT は任意のモデルやタスクに適用でき、出力間の情報一貫性を適切な距離測定によって測定できる。
テキストを生成するマルチモーダルな大規模言語モデルに着目し,CrossCheck-explicitとCrossCheck-implicitの2つの情報一貫性対策を検討する。
本手法の適用性について,テキスト,画像,音声視覚領域など,様々な形態の幻覚のランク付けについて紹介する。
さらに,第1の視覚幻覚ベンチマークであるAVHalluBenchを提案し,MHaluBenchとAVHalluBenchの相関関係を98%,89%とし,CrossCheckGPTの有効性を示した。
関連論文リスト
- VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning [15.156359255401812]
そこで本研究では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。
幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-04-16T07:14:32Z) - The Hallucinations Leaderboard -- An Open Effort to Measure Hallucinations in Large Language Models [24.11077502209129]
大規模言語モデル(LLM)は自然言語処理(NLP)のランドスケープを、人間のようなテキストを理解して生成する優れた能力で変えてきた。
しかし、これらのモデルは幻覚(幻覚)の傾向があり、実際の現実や入力コンテキストと一致しない。
本稿では,各モデルの幻覚発生傾向を定量的に測定し,比較するオープンイニシアチブである幻覚リーダーボードを紹介する。
論文 参考訳(メタデータ) (2024-04-08T23:16:22Z) - Fine-grained Hallucination Detection and Editing for Language Models [114.28828114834657]
大規模言語モデル(LM)は、しばしば幻覚と呼ばれる事実的誤りを引き起こす傾向にある。
我々は,幻覚の包括的分類を導入し,幻覚が多様な形態で現れることを議論する。
本稿では, 幻覚自動検出のための新しいタスクを提案し, 新たな評価ベンチマークであるFavaBenchを構築した。
論文 参考訳(メタデータ) (2024-01-12T19:02:48Z) - AutoHall: Automated Hallucination Dataset Generation for Large Language Models [56.92068213969036]
本稿では,AutoHallと呼ばれる既存のファクトチェックデータセットに基づいて,モデル固有の幻覚データセットを自動的に構築する手法を提案する。
また,自己コントラディションに基づくゼロリソース・ブラックボックス幻覚検出手法を提案する。
論文 参考訳(メタデータ) (2023-09-30T05:20:02Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for
Generative Large Language Models [55.60306377044225]
「SelfCheckGPT」は、ブラックボックスモデルの応答をファクトチェックする単純なサンプリングベースアプローチである。
本稿では,GPT-3を用いてWikiBioデータセットから個人に関するパスを生成する手法について検討する。
論文 参考訳(メタデータ) (2023-03-15T19:31:21Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z) - Detecting Hallucinated Content in Conditional Neural Sequence Generation [165.68948078624499]
出力シーケンスの各トークンが(入力に含まれていない)幻覚化されているかどうかを予測するタスクを提案する。
また、合成データに微調整された事前学習言語モデルを用いて幻覚を検出する方法についても紹介する。
論文 参考訳(メタデータ) (2020-11-05T00:18:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。