論文の概要: What Color Is It? A Text-Interference Multimodal Hallucination Benchmark
- arxiv url: http://arxiv.org/abs/2511.13400v2
- Date: Wed, 19 Nov 2025 03:09:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.109975
- Title: What Color Is It? A Text-Interference Multimodal Hallucination Benchmark
- Title(参考訳): 色とは何か? テキスト対話型マルチモーダル幻覚ベンチマーク
- Authors: Jinkun Zhao, Lei Huang, Haixin Ge, Wenjun Wu,
- Abstract要約: 本研究では,「色は何か」データセットにおける単一モダリティ視覚幻覚の根本原因について検討する。
このデータセットに基づいて,幻覚を増強するための潜在的な解決策を提案する。
- 参考スコア(独自算出の注目度): 8.412194794280818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid advancement of Large Models, numerous text-and-vision-fused Multimodal Large Models (MLMs) have emerged. However, these MLMs remain susceptible to informational interference in visual perception, particularly in color perception, which introduces an additional risk of hallucination. To validate this hypothesis, we introduce the "What Color Is It" dataset, a novel benchmark constructed using a simple method to trigger single-modality visual hallucination in MLMs. Based on this dataset, we further investigate the underlying causes of hallucination in the visual modality of MLMs and propose potential solutions to enhance their robustness.
- Abstract(参考訳): 大規模モデル(MLM)の急速な進歩に伴い、多くのテキスト・フューズ・マルチモーダル・大型モデル(MLM)が出現している。
しかし、これらのMLMは、視覚知覚、特に色知覚において情報干渉の影響を受けやすいままであり、幻覚のリスクが増す。
この仮説を検証するために,MLMにおける単一モダリティ視覚幻覚を誘発するシンプルな手法を用いて構築された新しいベンチマークである「What Color Is It」データセットを導入する。
本データセットに基づいて,MLMの視覚的モダリティにおける幻覚の根本原因について検討し,その堅牢性を高めるための潜在的解決策を提案する。
関連論文リスト
- Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。
本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。
本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文 参考訳(メタデータ) (2024-12-15T09:10:46Z) - Mitigating Hallucinations in Large Vision-Language Models with Instruction Contrastive Decoding [25.489832294197797]
本稿では,LVLM推論における幻覚の低減を目的とした,命令コントラストデコーディング(ICD)手法を提案する。
本手法は,マルチモーダル核融合モジュールにおいて,外乱指示が幻覚を著しく悪化させるという観察に着想を得たものである。
論文 参考訳(メタデータ) (2024-03-27T16:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。