論文の概要: MIHBench: Benchmarking and Mitigating Multi-Image Hallucinations in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2508.00726v1
- Date: Fri, 01 Aug 2025 15:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.939584
- Title: MIHBench: Benchmarking and Mitigating Multi-Image Hallucinations in Multimodal Large Language Models
- Title(参考訳): MIHBench:マルチモーダル大規模言語モデルにおけるマルチイメージ幻覚のベンチマークと緩和
- Authors: Jiale Li, Mingrui Wu, Zixiang Jin, Hao Chen, Jiayi Ji, Xiaoshuai Sun, Liujuan Cao, Rongrong Ji,
- Abstract要約: マルチイメージMLLMにおける幻覚に関する最初の体系的研究を行う。
複数の画像に対してオブジェクト関連幻覚を評価するためのベンチマークであるMIHBenchを提案する。
MIHBenchは、Multi-Image Object Existence Hallucination、Multi-Image Object Count Hallucination、Object Identity Consistency Hallucinationの3つのコアタスクから構成される。
- 参考スコア(独自算出の注目度): 73.20126092411776
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite growing interest in hallucination in Multimodal Large Language Models, existing studies primarily focus on single-image settings, leaving hallucination in multi-image scenarios largely unexplored. To address this gap, we conduct the first systematic study of hallucinations in multi-image MLLMs and propose MIHBench, a benchmark specifically tailored for evaluating object-related hallucinations across multiple images. MIHBench comprises three core tasks: Multi-Image Object Existence Hallucination, Multi-Image Object Count Hallucination, and Object Identity Consistency Hallucination, targeting semantic understanding across object existence, quantity reasoning, and cross-view identity consistency. Through extensive evaluation, we identify key factors associated with the occurrence of multi-image hallucinations, including: a progressive relationship between the number of image inputs and the likelihood of hallucination occurrences; a strong correlation between single-image hallucination tendencies and those observed in multi-image contexts; and the influence of same-object image ratios and the positional placement of negative samples within image sequences on the occurrence of object identity consistency hallucination. To address these challenges, we propose a Dynamic Attention Balancing mechanism that adjusts inter-image attention distributions while preserving the overall visual attention proportion. Experiments across multiple state-of-the-art MLLMs demonstrate that our method effectively reduces hallucination occurrences and enhances semantic integration and reasoning stability in multi-image scenarios.
- Abstract(参考訳): マルチモーダル大規模言語モデルにおける幻覚への関心が高まっているにもかかわらず、既存の研究は主にシングルモーダルな設定に焦点を当てており、マルチモーダルなシナリオにおける幻覚はほとんど探索されていない。
このギャップに対処するために,マルチイメージMLLMにおける幻覚に関する最初の体系的研究を行い,複数の画像にまたがる対象関連幻覚を評価するためのベンチマークであるMIHBenchを提案する。
MIHBenchは、マルチイメージオブジェクト存在幻覚、マルチイメージオブジェクトカウント幻覚、オブジェクトアイデンティティ一貫性幻覚の3つのコアタスクから構成される。
画像入力数と幻覚発生の確率の進行的関係,複数画像の文脈で観察される画像の幻覚傾向と強い相関,画像列内における同じ対象画像比と負のサンプルの位置配置が物体のアイデンティティの整合性幻覚の発生に与える影響など,多画像の幻覚の発生に関連する重要な要因を明らかにする。
これらの課題に対処するため,視覚的注意率の総和を保ちながら画像間注意分布を調整するダイナミックアテンションバランス機構を提案する。
複数の最先端MLLMを対象とした実験により,本手法は幻覚の発生を効果的に低減し,意味的統合と推論安定性を向上することを示した。
関連論文リスト
- A Survey of Multimodal Hallucination Evaluation and Detection [52.03164192840023]
MLLM(Multi-modal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なパラダイムとして登場した。
これらのモデルはしばしば幻覚に悩まされ、もっともらしいように見えるコンテンツを生成するが、入力内容や確立された世界的知識と矛盾する。
本調査では,イメージ・トゥ・テキスト(I2T)およびテキスト・トゥ・イメージ(T2I)生成タスクを対象とした幻覚評価ベンチマークと検出方法の詳細なレビューを行う。
論文 参考訳(メタデータ) (2025-07-25T07:22:42Z) - Mitigating Behavioral Hallucination in Multimodal Large Language Models for Sequential Images [6.48620624181578]
SHE(Sequence Hallucination Eradication)は,幻覚を検知し緩和する軽量なフレームワークである。
また,行動幻覚の重症度を定量化する新しい指標(BEACH)を提案する。
論文 参考訳(メタデータ) (2025-06-08T15:08:52Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。
これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。
本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-12-29T23:56:01Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Reefknot: A Comprehensive Benchmark for Relation Hallucination Evaluation, Analysis and Mitigation in Multimodal Large Language Models [13.48296910438554]
我々は2万以上の実世界のサンプルからなる関係幻覚を対象とする総合的なベンチマークであるReefknotを紹介した。
関係幻覚を体系的に定義し、知覚的視点と認知的視点を統合するとともに、Visual Genomeのシーングラフデータセットを用いて関係ベースのコーパスを構築する。
本稿では,Reefknotを含む3つのデータセットに対して,幻覚率を平均9.75%削減する信頼性に基づく新たな緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-08-18T10:07:02Z) - Multi-Object Hallucination in Vision-Language Models [28.135215173793785]
大型視覚言語モデル(LVLM)は、しばしば物体幻覚に悩まされる。
幻覚行動は、データ固有の要因、サリエンスと周波数、本質的なモデル行動に影響される。
論文 参考訳(メタデータ) (2024-07-08T17:59:57Z) - Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models [57.42800112251644]
本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点を当てた。
そこで,本研究では,数幻覚を減らすための一貫性向上を目的としたトレーニング手法を考案し,直接微調整法よりも8%の性能向上を図った。
論文 参考訳(メタデータ) (2024-03-03T02:31:11Z) - Unified Hallucination Detection for Multimodal Large Language Models [44.333451078750954]
マルチモーダル大言語モデル(MLLM)は幻覚の重要な問題に悩まされている。
本稿では,幻覚検出手法の進歩を評価するために,メタ評価ベンチマークであるMHaluBenchを提案する。
我々は,幻覚の発生を確実に検証するために,一連の補助ツールを活用する,新しい統合型マルチモーダル幻覚検出フレームワークUNIHDを公表した。
論文 参考訳(メタデータ) (2024-02-05T16:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。