論文の概要: DASH: Detection and Assessment of Systematic Hallucinations of VLMs
- arxiv url: http://arxiv.org/abs/2503.23573v1
- Date: Sun, 30 Mar 2025 19:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 19:35:57.189365
- Title: DASH: Detection and Assessment of Systematic Hallucinations of VLMs
- Title(参考訳): DASH:VLMの系統的幻覚の検出と評価
- Authors: Maximilian Augustin, Yannic Neuhaus, Matthias Hein,
- Abstract要約: 視覚言語モデル(VLM)は、画像中の特定の物体の存在を誤って示す物体幻覚の傾向にある。
本研究では,実世界の画像上でのVLMの系統的幻覚を特定するための大規模自動パイプラインであるDASHを提案する。
DASHをPaliGemmaに適用し、380のオブジェクトクラスに2つのLLaVA-NeXTモデルを適用する。
- 参考スコア(独自算出の注目度): 35.458709912618176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) are prone to object hallucinations, where they erroneously indicate the presenceof certain objects in an image. Existing benchmarks quantify hallucinations using relatively small, labeled datasets. However, this approach is i) insufficient to assess hallucinations that arise in open-world settings, where VLMs are widely used, and ii) inadequate for detecting systematic errors in VLMs. We propose DASH (Detection and Assessment of Systematic Hallucinations), an automatic, large-scale pipeline designed to identify systematic hallucinations of VLMs on real-world images in an open-world setting. A key component is DASH-OPT for image-based retrieval, where we optimize over the ''natural image manifold'' to generate images that mislead the VLM. The output of DASH consists of clusters of real and semantically similar images for which the VLM hallucinates an object. We apply DASH to PaliGemma and two LLaVA-NeXT models across 380 object classes and, in total, find more than 19k clusters with 950k images. We study the transfer of the identified systematic hallucinations to other VLMs and show that fine-tuning PaliGemma with the model-specific images obtained with DASH mitigates object hallucinations. Code and data are available at https://YanNeu.github.io/DASH.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像中の特定の物体の存在を誤って示す物体幻覚の傾向にある。
既存のベンチマークは、比較的小さなラベル付きデータセットを使用して幻覚を定量化する。
しかし、このアプローチは
一 VLMが広く使用されているオープンワールドの設定で発生する幻覚を評価できないこと。
二 VLMの系統的誤りを検出できないこと。
本稿では,実世界の画像上でのVLMの系統的幻覚の同定を目的とした,大規模かつ大規模なパイプラインであるDASH(Detection and Assessment of Systematic Hallucinations)を提案する。
画像ベース検索のためのDASH-OPTでは,「自然な画像多様体」を最適化し,VLMを誤解させる画像を生成する。
DASHの出力は、VLMがオブジェクトを幻覚させる実画像と意味的に類似したイメージのクラスタで構成されている。
DASHをPaliGemmaに適用し、380のオブジェクトクラスに2つのLLaVA-NeXTモデルを適用する。
同定された系統幻覚を他のVLMに転送し,DASHで得られたモデル固有画像を用いて微調整したPaliGemmaが物体幻覚を緩和することを示す。
コードとデータはhttps://YanNeu.github.io/DASHで公開されている。
関連論文リスト
- Generate, but Verify: Reducing Hallucination in Vision-Language Models with Retrospective Resampling [67.14942827452161]
VLM(Vision-Language Models)は視覚的理解に優れ、視覚幻覚に悩まされることが多い。
本研究では,幻覚を意識したトレーニングとオンザフライの自己検証を統合した統合フレームワークREVERSEを紹介する。
論文 参考訳(メタデータ) (2025-04-17T17:59:22Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Hallu-PI: Evaluating Hallucination in Multi-modal Large Language Models within Perturbed Inputs [54.50483041708911]
Hallu-PIは、Perturbed Inputs内のMLLMの幻覚を評価するために設計された最初のベンチマークである。
Hallu-PIは7つの摂動シナリオで構成され、11種類のオブジェクトから1,260の摂動イメージを含んでいる。
我々の研究は、MLLMが様々な種類の幻覚を処理できる能力に深刻なバイアスがあることを明らかにした。
論文 参考訳(メタデータ) (2024-08-02T16:07:15Z) - BEAF: Observing BEfore-AFter Changes to Evaluate Hallucination in Vision-language Models [20.697019266074747]
視覚言語モデル(VLM)は、視覚エンコーダと大型言語モデル(LLM)を組み合わせて世界を認識する。
近年の研究では、VLMは幻覚に弱いことが示されている。
我々は、True Understanding (TU)、IGnorance (IG)、StuBbornness (SB)、InDecision (ID)といった新しいメトリクスを紹介します。
論文 参考訳(メタデータ) (2024-07-18T12:11:12Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,大規模視覚言語モデルにおける幻覚の重要な要因を明らかにする。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - Detecting and Mitigating Hallucination in Large Vision Language Models via Fine-Grained AI Feedback [40.930238150365795]
我々は,LVLM(Large Vision Language Models)における幻覚の検出と緩和について,きめ細かいAIフィードバックを用いて提案する。
プロプライエタリモデルによる小型幻覚アノテーションデータセットを生成する。
そこで本研究では,幻覚緩和モデルの訓練のための選好データセットを自動構築する検出テーマ書き換えパイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-22T14:46:10Z) - Make VLM Recognize Visual Hallucination on Cartoon Character Image with Pose Information [5.501684533538496]
視覚言語モデル(VLM)を用いた意味幻覚検出システムを提案する。
我々は、プロンプト、RGB画像、ポーズ情報を超えて視覚データをさらに入力することで、VLMの全体的な性能を改善する、ポーズ認識型インコンテキスト・ビジュアル・ラーニング(PA-ICVL)を導入する。
本研究は、コンテキスト内視覚学習による視覚幻覚を緩和し、非フォトリアリスティック領域における潜在能力を拡大することにより、TTIモデルの現実世界への応用に向けての能力を向上させる。
論文 参考訳(メタデータ) (2024-03-22T09:13:09Z) - HalluciDoctor: Mitigating Hallucinatory Toxicity in Visual Instruction Data [102.56792377624927]
機械生成データに固有の幻覚は未発見のままである。
本稿では,クロスチェックパラダイムに基づく新しい幻覚検出・除去フレームワークであるHaluciDoctorを提案する。
LLaVAに比べて44.6%の幻覚を緩和し,競争性能を維持した。
論文 参考訳(メタデータ) (2023-11-22T04:52:58Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Evaluating Object Hallucination in Large Vision-Language Models [122.40337582958453]
本研究は,大規模視覚言語モデル(LVLM)の物体幻覚に関する最初の体系的研究である。
LVLMは、記述中の対象画像と矛盾しないオブジェクトを生成する傾向がある。
対象の幻覚を評価するために,POPEと呼ばれるポーリングに基づくクエリ手法を提案する。
論文 参考訳(メタデータ) (2023-05-17T16:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。