論文の概要: EAZY: Eliminating Hallucinations in LVLMs by Zeroing out Hallucinatory Image Tokens
- arxiv url: http://arxiv.org/abs/2503.07772v1
- Date: Mon, 10 Mar 2025 18:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:45:10.715629
- Title: EAZY: Eliminating Hallucinations in LVLMs by Zeroing out Hallucinatory Image Tokens
- Title(参考訳): EAZY:幻覚画像トークンのゼロ化によるLVLMの幻覚除去
- Authors: Liwei Che, Tony Qingze Liu, Jing Jia, Weiyi Qin, Ruixiang Tang, Vladimir Pavlovic,
- Abstract要約: LVLM(Large Vision-Language Models)は、まだオブジェクト幻覚の課題に直面している。
我々の研究は、画像入力源に焦点を移し、特定の画像トークンが幻覚にどのように貢献するかを調べる。
本稿では,幻覚器画像トークンをゼロにすることで,hAllucinationsを自動的に識別し,除去する新しい学習自由化手法EAZYを紹介する。
- 参考スコア(独自算出の注目度): 15.479587108655393
- License:
- Abstract: Despite their remarkable potential, Large Vision-Language Models (LVLMs) still face challenges with object hallucination, a problem where their generated outputs mistakenly incorporate objects that do not actually exist. Although most works focus on addressing this issue within the language-model backbone, our work shifts the focus to the image input source, investigating how specific image tokens contribute to hallucinations. Our analysis reveals a striking finding: a small subset of image tokens with high attention scores are the primary drivers of object hallucination. By removing these hallucinatory image tokens (only 1.5% of all image tokens), the issue can be effectively mitigated. This finding holds consistently across different models and datasets. Building on this insight, we introduce EAZY, a novel, training-free method that automatically identifies and Eliminates hAllucinations by Zeroing out hallucinatorY image tokens. We utilize EAZY for unsupervised object hallucination detection, achieving 15% improvement compared to previous methods. Additionally, EAZY demonstrates remarkable effectiveness in mitigating hallucinations while preserving model utility and seamlessly adapting to various LVLM architectures.
- Abstract(参考訳): 目覚しい可能性にもかかわらず、LVLM(Large Vision-Language Models)はオブジェクト幻覚の課題に直面している。
ほとんどの研究は言語モデルバックボーン内でこの問題に対処することに重点を置いているが、私たちの研究はイメージ入力ソースに焦点を移し、特定の画像トークンが幻覚にどのように貢献するかを調査している。
注目スコアの高い画像トークンの小さなサブセットが、物体幻覚の主要な要因である。
これらの幻覚的画像トークン(全画像トークンのわずか1.5%)を除去することで、この問題を効果的に緩和することができる。
この発見は、さまざまなモデルとデータセットを一貫して保持する。
この知見に基づいて,幻覚器画像トークンをゼロにすることで,hAllucinationsを自動的に識別・除去する新しい学習自由度手法EAZYを紹介する。
我々は、EAZYを教師なし物体幻覚検出に利用し、従来の方法に比べて15%改善した。
さらに、EAZYは、モデルユーティリティを保持しながら幻覚を緩和し、様々なLVLMアーキテクチャにシームレスに適応する際、顕著な効果を示す。
関連論文リスト
- HALLUCINOGEN: A Benchmark for Evaluating Object Hallucination in Large Visual-Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクの実行において顕著な性能を示す。
本稿では,新しい視覚的質問応答(VQA)オブジェクト幻覚攻撃ベンチマークであるHALLUCINOGENを提案する。
バイオメディカルドメインに適合した幻覚攻撃であるMED-HALLUCINOGENを導入した。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models [22.42712853647949]
本稿では,CLIPモデル内での物体幻覚問題について詳細に検討する。
孤立しても、CLIPモデルは対象の幻覚に傾向があり、幻覚問題は単に視覚と言語モダリティの相互作用によるものではないことを示唆する。
拡張モデルは視覚エンコーダとして利用でき、LVLMにおける物体幻覚の問題を効果的に緩和できることを示す。
論文 参考訳(メタデータ) (2024-10-04T06:24:49Z) - HELPD: Mitigating Hallucination of LVLMs by Hierarchical Feedback Learning with Vision-enhanced Penalty Decoding [36.360171373963716]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を示している。
これらのモデルはまだマルチモーダル幻覚に悩まされており、それは画像に反するオブジェクトやコンテンツの生成を意味する。
本稿では、この問題に対処するために、視力強化されたペナルティ復号法(HELPD)を用いた階層的フィードバック学習を提案する。
論文 参考訳(メタデータ) (2024-09-30T15:52:05Z) - Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? [53.89380284760555]
大型視覚言語モデル(LVLM)は、画像に見つからない概念に言及するキャプションを生成する。
これらの幻覚は、LVLMの信頼性を損なうものであり、ユビキタス採用の主な障害であることは間違いない。
最近の研究は、画像領域やオブジェクトをテキストスパンに明示的にアライメントする、接地目的の追加は、LVLM幻覚の量を減らすことを示唆している。
論文 参考訳(メタデータ) (2024-06-20T16:56:11Z) - AutoHallusion: Automatic Generation of Hallucination Benchmarks for Vision-Language Models [91.78328878860003]
視覚言語モデル(LVLM)は幻覚の傾向が強い。
ベンチマークは多くの場合、障害パターンが一般化できない手作りのコーナーケースに依存します。
最初の自動ベンチマーク生成手法であるAutoHallusionを開発した。
論文 参考訳(メタデータ) (2024-06-16T11:44:43Z) - ESREAL: Exploiting Semantic Reconstruction to Mitigate Hallucinations in Vision-Language Models [6.014286500397164]
視覚言語モデルにおける幻覚は、特に長いキャプションの生成において、その信頼性に重大な課題をもたらす。
本研究では,幻覚の正確な局在化と罰則化による幻覚の発生抑制を目的とした,新しい教師なし学習フレームワークであるESREALを紹介する。
LLaVA, InstructBLIP, mPLUG-Owl2の幻覚を32.81%, 27.08%, 7.46%減少させる。
論文 参考訳(メタデータ) (2024-03-24T14:21:06Z) - Hallucination Augmented Contrastive Learning for Multimodal Large
Language Model [53.65682783591723]
マルチモーダル大規模言語モデル(MLLM)は、自然言語と視覚情報を効率的に統合し、マルチモーダルタスクを処理できることが示されている。
しかし、MLLMは幻覚の基本的な限界に直面しており、誤った情報や偽情報を生成する傾向がある。
本稿では,MLLMにおける幻覚を表現学習の新たな視点から論じる。
論文 参考訳(メタデータ) (2023-12-12T04:05:15Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。