論文の概要: When Harmful Content Gets Camouflaged: Unveiling Perception Failure of LVLMs with CamHarmTI
- arxiv url: http://arxiv.org/abs/2512.03087v1
- Date: Sat, 29 Nov 2025 06:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:54.95178
- Title: When Harmful Content Gets Camouflaged: Unveiling Perception Failure of LVLMs with CamHarmTI
- Title(参考訳): ハーモフルコンテンツがカモフラージュされる時:CamHarmTIによるLVLMの知覚障害の暴露
- Authors: Yanhui Li, Qi Zhou, Zhihong Xu, Huizhong Guo, Wenhai Wang, Dongxia Wang,
- Abstract要約: 大規模視覚言語モデル(LVLM)は、多モーダル有害なコンテンツの検出が重要となるタスクにますます利用されている。
テキスト画像中の有害な内容を認識・解釈するLVLM能力を評価するためのベンチマークであるCamHarmTIを紹介する。
- 参考スコア(独自算出の注目度): 32.60708757460534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models (LVLMs) are increasingly used for tasks where detecting multimodal harmful content is crucial, such as online content moderation. However, real-world harmful content is often camouflaged, relying on nuanced text-image interplay, such as memes or images with embedded malicious text, to evade detection. This raises a key question: \textbf{can LVLMs perceive such camouflaged harmful content as sensitively as humans do?} In this paper, we introduce CamHarmTI, a benchmark for evaluating LVLM ability to perceive and interpret camouflaged harmful content within text-image compositions. CamHarmTI consists of over 4,500 samples across three types of image-text posts. Experiments on 100 human users and 12 mainstream LVLMs reveal a clear perceptual gap: humans easily recognize such content (e.g., over 95.75\% accuracy), whereas current LVLMs often fail (e.g., ChatGPT-4o achieves only 2.10\% accuracy). Moreover, fine-tuning experiments demonstrate that \bench serves as an effective resource for improving model perception, increasing accuracy by 55.94\% for Qwen2.5VL-7B. Attention analysis and layer-wise probing further reveal that fine-tuning enhances sensitivity primarily in the early layers of the vision encoder, promoting a more integrated scene understanding. These findings highlight the inherent perceptual limitations in LVLMs and offer insight into more human-aligned visual reasoning systems.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)は、オンラインコンテンツモデレーションなど、多モーダル有害なコンテンツの検出が重要となるタスクにますます利用されている。
しかし、現実世界の有害なコンテンツはしばしば偽造され、ミームや悪意のあるテキストが埋め込まれた画像など、微妙なテキストイメージのインタープレイに依存して検出を回避している。
これは重要な疑問を提起する: \textbf{can LVLMsは、人間のように有害な内容を認識するのか?
The paper, we introduced CamHarmTI, a benchmark for a LVLM ability to perceive and interprepreprepretated false content in text-image compositions。
CamHarmTIは、3種類の画像テキスト投稿に対して4500以上のサンプルで構成されている。
100人の人間ユーザと12人のLVLMに対する実験では、その内容を容易に認識する(例:95.75\%以上の精度)のに対して、現在のLVLMは失敗する(例:ChatGPT-4oは2.10\%の精度しか達成しない)。
さらに、微調整実験により、Qwen2.5VL-7Bの精度を55.94\%向上させ、モデル知覚を改善する効果的な資源として機能することが示されている。
注意分析とレイヤワイズ探索により、ファインチューニングは視覚エンコーダの初期層における感度を高め、より統合されたシーン理解を促進する。
これらの知見は、LVLMに固有の知覚的制限を強調し、より人間に近い視覚的推論システムに関する洞察を提供する。
関連論文リスト
- Evaluating the Sensitivity of LLMs to Harmful Contents in Long Input [53.19281984086319]
大規模言語モデル (LLM) は、文書処理から検索拡張生成まで、拡張コンテキストに依存したアプリケーションをサポートするようになった。
我々は,LLMの有害な内容に対する感受性を,拡張されたコンテキスト,異なるタイプ(明示的対暗黙的),位置(傾向,中間,端),有病率(プロンプトの0.01~0.50),文脈長(600~6000トークン)で評価した。
我々は同様のパターンを観察する: 適度な有害な有病率(0.25)でパフォーマンスピークがピークに達するが、内容が非常に疎い場合や支配的な場合の減少、文脈長の増大に伴うリコールの減少、初期有害な文は一般的により確実に検出され、明示的な内容は暗黙よりも一貫して認識される。
論文 参考訳(メタデータ) (2025-10-07T12:33:21Z) - SemVink: Advancing VLMs' Semantic Understanding of Optical Illusions via Visual Global Thinking [31.356290235986332]
視覚言語モデル(VLM)は、セマンティックなタスクでは優れているが、中心となる人間の能力には優れている。
HC-Benchは、隠れテキスト、オブジェクト、イリュージョンを備えた112の画像のベンチマークである。
本稿では,余剰な視覚ノイズを排除し,99%の精度を解放するSemVink(Semantic Visual Thinking)を提案する。
論文 参考訳(メタデータ) (2025-06-03T12:33:47Z) - Blind Spot Navigation: Evolutionary Discovery of Sensitive Semantic Concepts for LVLMs [24.76767896607915]
最近の研究では、モデルは視覚入力の特定の意味に特に敏感であり、エラーを起こしやすいことが示唆されている。
そこで本研究では,大規模視覚言語モデル(LVLM)の最初の探索を行った。
画像中の特定の意味概念に直面すると,LVLMは幻覚や様々な誤りの影響を受けることが判明した。
論文 参考訳(メタデータ) (2025-05-21T08:45:43Z) - Mitigating Hallucination for Large Vision Language Model by Inter-Modality Correlation Calibration Decoding [66.06337890279839]
大規模視覚言語モデル(LVLM)は、下流のマルチモーダルタスクに対する視覚言語理解において顕著な能力を示している。
LVLMは、複雑な生成タスクにおいて幻覚を生じさせ、視覚入力と生成されたコンテンツの間に矛盾が生じている。
本研究では,LVLMにおける幻覚を無訓練で緩和するIMCCD法を提案する。
論文 参考訳(メタデータ) (2025-01-03T17:56:28Z) - MetaToken: Detecting Hallucination in Image Descriptions by Meta Classification [1.3654846342364308]
トークンレベルの幻覚を無視可能なコストで検出する軽量バイナリ分類器であるMetaTokenを紹介する。
統計的解析から,大規模視覚言語モデルにおける幻覚の重要な要因を明らかにする。
提案手法の有効性を示す4種類のLVLMについて検討した。
論文 参考訳(メタデータ) (2024-05-29T15:28:42Z) - Visual Description Grounding Reduces Hallucinations and Boosts Reasoning in LVLMs [52.497823009176074]
LVLM(Large Vision-Language Models)はしばしば、幻覚として知られる事実情報を誤認する応答を生成する。
視覚的知覚の向上とLVLMの推論能力の向上を目的とした学習自由度手法であるVisual Description Grounded Decoding (VDGD)を紹介した。
論文 参考訳(メタデータ) (2024-05-24T16:21:59Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。