論文の概要: A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.01958v1
- Date: Sun, 04 May 2025 01:47:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.354543
- Title: A Comprehensive Analysis for Visual Object Hallucination in Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルにおける視覚的物体幻覚の包括的解析
- Authors: Liqiang Jing, Guiming Hardy Chen, Ehsan Aghazadeh, Xin Eric Wang, Xinya Du,
- Abstract要約: 視覚言語モデル(LVLM)はマルチモーダルタスクにおいて顕著な機能を示す。
LVLMはクエリ入力に基づいて不正確なビジュアルオブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こす可能性がある。
本稿では,LLaVAライクなLVLMの各コンポーネントを分析し,潜在的なエラーの発生源とその影響を同定する。
- 参考スコア(独自算出の注目度): 30.037505914306504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) demonstrate remarkable capabilities in multimodal tasks, but visual object hallucination remains a persistent issue. It refers to scenarios where models generate inaccurate visual object-related information based on the query input, potentially leading to misinformation and concerns about safety and reliability. Previous works focus on the evaluation and mitigation of visual hallucinations, but the underlying causes have not been comprehensively investigated. In this paper, we analyze each component of LLaVA-like LVLMs -- the large language model, the vision backbone, and the projector -- to identify potential sources of error and their impact. Based on our observations, we propose methods to mitigate hallucination for each problematic component. Additionally, we developed two hallucination benchmarks: QA-VisualGenome, which emphasizes attribute and relation hallucinations, and QA-FB15k, which focuses on cognition-based hallucinations.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、マルチモーダルタスクにおいて顕著な能力を示すが、視覚的物体幻覚は依然として持続的な問題である。
これは、クエリ入力に基づいて、モデルが不正確な視覚的オブジェクト関連情報を生成し、安全性と信頼性に関する誤った情報や懸念を引き起こすシナリオを指す。
これまでの研究は視覚幻覚の評価と緩和に重点を置いていたが、根本原因は包括的に研究されていない。
本稿では,LLaVAライクなLVLM(大規模言語モデル,ビジョンバックボーン,プロジェクタ)の各コンポーネントを分析し,潜在的なエラーの原因とその影響を明らかにする。
そこで本研究では,各問題成分に対する幻覚を緩和する手法を提案する。
さらに、属性と関係の幻覚を強調するQA-VisualGenomeと認知に基づく幻覚に焦点を当てたQA-FB15kという2つの幻覚ベンチマークを開発した。
関連論文リスト
- Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - From Pixels to Tokens: Revisiting Object Hallucinations in Large Vision-Language Models [15.401221354325672]
大型視覚モデル(LVLM)における幻覚は、視覚入力に表示されない物体を生成するという重要な課題である。
最近の研究では、幻覚は視覚的な入力の理解の欠如に起因しているが、より根本的な問題は無視されている。
本稿では,LVLMの幻覚をアーキテクチャの観点から再検討し,視覚エンコーダ(機能抽出)とモーダルアライメントモジュール(機能デカップリング)の主な原因について検討する。
論文 参考訳(メタデータ) (2024-10-09T11:46:32Z) - Multi-Object Hallucination in Vision-Language Models [28.135215173793785]
大型視覚言語モデル(LVLM)は、しばしば物体幻覚に悩まされる。
幻覚行動は、データ固有の要因、サリエンスと周波数、本質的なモデル行動に影響される。
論文 参考訳(メタデータ) (2024-07-08T17:59:57Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Plausible May Not Be Faithful: Probing Object Hallucination in
Vision-Language Pre-training [66.0036211069513]
大規模視覚言語事前学習モデルは、テキストを生成する際に、存在しない視覚オブジェクトを幻覚させる傾向がある。
標準メトリクスでより良いスコアを得るモデルは、オブジェクトをより頻繁に幻覚させる可能性があることを示す。
驚いたことに、パッチベースの機能が最も良く、より小さなパッチ解決は、オブジェクト幻覚の非自明な減少をもたらす。
論文 参考訳(メタデータ) (2022-10-14T10:27:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。