論文の概要: HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2407.15680v1
- Date: Mon, 22 Jul 2024 14:49:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 14:40:28.516011
- Title: HaloQuest: A Visual Hallucination Dataset for Advancing Multimodal Reasoning
- Title(参考訳): HaloQuest: マルチモーダル推論を改善するための視覚的幻覚データセット
- Authors: Zhecan Wang, Garrett Bingham, Adams Yu, Quoc Le, Thang Luong, Golnaz Ghiasi,
- Abstract要約: この研究は、マルチモーダル幻覚の様々な側面を捉える新しい視覚的質問応答データセットであるHaloQuestを紹介した。
現在のモデルはHaloQuestと競合し、すべてのオープンソースVLMは36%の精度で達成されている。
HaloQuestの微調整は、標準的な推論タスクのパフォーマンスを維持しながら幻覚率を大幅に低下させる。
- 参考スコア(独自算出の注目度): 18.776499819317106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hallucination has been a major problem for large language models and remains a critical challenge when it comes to multimodality in which vision-language models (VLMs) have to deal with not just textual but also visual inputs. Despite rapid progress in VLMs, resources for evaluating and addressing multimodal hallucination are limited and mostly focused on evaluation. This work introduces HaloQuest, a novel visual question answering dataset that captures various aspects of multimodal hallucination such as false premises, insufficient contexts, and visual challenges. A novel idea from HaloQuest is to leverage synthetic images, apart from real ones, to enable dataset creation at scale. With over 7.7K examples spanning across a wide variety of categories, HaloQuest was designed to be both a challenging benchmark for VLMs and a fine-tuning dataset for advancing multimodal reasoning. Our experiments reveal that current models struggle with HaloQuest, with all open-source VLMs achieving below 36% accuracy. On the other hand, fine-tuning on HaloQuest significantly reduces hallucination rates while preserving performance on standard reasoning tasks. Our results discover that benchmarking with generated images is highly correlated (r=0.97) with real images. Last but not least, we propose a novel Auto-Eval mechanism that is highly correlated with human raters (r=0.99) for evaluating VLMs. In sum, this work makes concrete strides towards understanding, evaluating, and mitigating hallucination in VLMs, serving as an important step towards more reliable multimodal AI systems in the future.
- Abstract(参考訳): 幻覚は大きな言語モデルにとって大きな問題であり、視覚言語モデル(VLM)がテキストだけでなく視覚入力も扱わなければならないマルチモーダル性において、依然として重要な課題である。
VLMの急速な進歩にもかかわらず、マルチモーダル幻覚の評価と対処のためのリソースは限られており、主に評価に焦点を当てている。
HaloQuestは、虚偽の前提、不十分なコンテキスト、視覚的課題といったマルチモーダル幻覚のさまざまな側面をキャプチャする、新しい視覚的質問応答データセットである。
HaloQuestの新たなアイデアは、実際の画像とは別に合成画像を活用して、大規模なデータセット生成を可能にすることだ。
HaloQuestはVLMの挑戦的なベンチマークと、マルチモーダル推論を進めるための微調整データセットの両方を設計した。
我々の実験によると、現在のモデルはHaloQuestと競合し、すべてのオープンソースVLMが36%未満の精度で達成されている。
一方、HaloQuestの微調整は、標準的な推論タスクのパフォーマンスを維持しながら幻覚率を大幅に低下させる。
その結果、生成した画像とのベンチマークは実画像と高い相関関係(r=0.97)があることが判明した。
最後に, VLMの評価において, レーナー (r=0.99) と高い相関性を有する新しいAuto-Eval機構を提案する。
まとめると、この研究はVLMにおける幻覚の理解、評価、緩和に向けて具体的な努力をし、将来的にはより信頼性の高いマルチモーダルAIシステムに向けた重要なステップとなる。
関連論文リスト
- VidHal: Benchmarking Temporal Hallucinations in Vision LLMs [9.392258475822915]
ビデオベースの幻覚を評価するために特別に設計されたベンチマークであるVidHalを紹介する。
VidHalの明確な特徴は、各ビデオに関連する様々なレベルのキャプションを表すキャプションを慎重に作成することである。
本稿では,VLLMの字幕ランク付けを必要とする新規な字幕順序付けタスクを提案する。
論文 参考訳(メタデータ) (2024-11-25T06:17:23Z) - LongHalQA: Long-Context Hallucination Evaluation for MultiModal Large Language Models [96.64960606650115]
LongHalQA (LongHalQA) は、6Kの長い複雑な幻覚テキストからなるLLMフリー幻覚ベンチマークである。
LongHalQA は GPT4V の生成した幻覚データによって特徴付けられる。
論文 参考訳(メタデータ) (2024-10-13T18:59:58Z) - HaloScope: Harnessing Unlabeled LLM Generations for Hallucination
Detection [55.596406899347926]
HaloScopeは、幻覚検出のために、未ラベルの大規模言語モデルを活用する新しい学習フレームワークである。
未ラベル混合データ中の真偽と非真偽の世代を区別する自動会員推定スコアを提案する。
実験により、HaloScopeはより優れた幻覚検出性能を達成でき、競争相手よりもかなりの差で勝っていることが示された。
論文 参考訳(メタデータ) (2024-09-26T03:22:09Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [80.00303150568696]
我々はまず,ビデオイベント理解におけるビデオLMMの幻覚現象を評価する新しいベンチマークであるEventHallusionを提案する。
既存の VideoLLM が基盤モデルから派生した先行モデルと絡み合っているという観測に基づいて,私たちのEventHallusion はビデオ収集と注釈付質問によってキュレートされる。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - Look, Compare, Decide: Alleviating Hallucination in Large Vision-Language Models via Multi-View Multi-Path Reasoning [24.270713960060142]
LVLM(Large Vision-Language Models)は、マルチモーダルコンテキスト理解における印象的な機能を示す。
彼らはまだ、画像の内容と矛盾する出力を生成することを参照して幻覚に悩まされている。
LVLMの生来の能力を最大限活用して幻覚を減らすことを目的とした、トレーニングフリーフレームワークである textbfMVP を提案する。
論文 参考訳(メタデータ) (2024-08-30T09:40:10Z) - Investigating and Mitigating the Multimodal Hallucination Snowballing in Large Vision-Language Models [33.19894606649144]
視覚情報を人間の言語で理解する手法は進歩しているが、LVLM(Large Vision-Language Models)は多モード幻覚に悩まされている。
生成した幻覚に遭遇する際のLVLMの挙動を評価するためのMMHalballというフレームワークを提案する。
本稿では,LVLMの出力分布を残差視覚入力から導出した値で修正する,Residual Visual Decodingと呼ばれるトレーニング不要な手法を提案する。
論文 参考訳(メタデータ) (2024-06-30T03:04:11Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Mitigating Object Hallucinations in Large Vision-Language Models through
Visual Contrastive Decoding [125.05295513481035]
本稿では,オリジナルおよび歪曲された視覚入力から出力分布を対比する,シンプルでトレーニングのないVisual Contrastive Decoding(VCD)を紹介する。
提案したVCDは, 対象幻覚の2つの重要な原因である, 統計的偏見と単調な先行性に対する信頼度を効果的に低減する。
実験の結果,付加的なトレーニングや外部ツールの使用がなければ,異なるLVLMファミリーにおける物体幻覚の問題を著しく軽減できることがわかった。
論文 参考訳(メタデータ) (2023-11-28T16:26:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。