Fugu-MT 論文翻訳(概要): SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions

論文の概要: SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions

arxiv url: http://arxiv.org/abs/2603.23118v1
Date: Tue, 24 Mar 2026 12:15:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-25 19:53:37.468865
Title: SMSP: A Plug-and-Play Strategy of Multi-Scale Perception for MLLMs to Perceive Visual Illusions
Title（参考訳）: SMSP: MLLMのためのマルチスケール知覚のプラグイン・アンド・プレイ戦略
Authors: Jinzhe Tu, Ruilei Guo, Zihan Guo, Junxiao Yang, Shiyao Cui, Minlie Huang,
Abstract要約: MLLM(Multimodal Large Language Models)は、隠れパターンの視覚錯覚に対して非常に脆弱である。この欠損は、現在のMLLMとヒトの知覚上の不一致を強調し、また潜在的な安全性の懸念も引き起こす。マルチスケール知覚戦略(SMSP)は,人間の視覚的知覚戦略に適合するプラグイン・アンド・プレイ・フレームワークである。
参考スコア（独自算出の注目度）: 46.29380423673203
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent works have shown that Multimodal Large Language Models (MLLMs) are highly vulnerable to hidden-pattern visual illusions, where the hidden content is imperceptible to models but obvious to humans. This deficiency highlights a perceptual misalignment between current MLLMs and humans, and also introduces potential safety concerns. To systematically investigate this failure, we introduce IlluChar, a comprehensive and challenging illusion dataset, and uncover a key underlying mechanism for the models' failure: high-frequency attention bias, where the models are easily distracted by high-frequency background textures in illusion images, causing them to overlook hidden patterns. To address the issue, we propose the Strategy of Multi-Scale Perception (SMSP), a plug-and-play framework that aligns with human visual perceptual strategies. By suppressing distracting high-frequency backgrounds, SMSP generates images closer to human perception. Our experiments demonstrate that SMSP significantly improves the performance of all evaluated MLLMs on illusion images, for instance, increasing the accuracy of Qwen3-VL-8B-Instruct from 13.0% to 84.0%. Our work provides novel insights into MLLMs' visual perception, and offers a practical and robust solution to enhance it. Our code is publicly available at https://github.com/Tujz2023/SMSP.
Abstract（参考訳）: 近年の研究では、MLLM(Multimodal Large Language Models)は隠れパターンの視覚錯覚に対して非常に脆弱であることが示されている。この欠損は、現在のMLLMとヒトの知覚上の不一致を強調し、また潜在的な安全性の懸念も引き起こす。この失敗を体系的に調査するために、包括的で挑戦的な錯視データセットであるIlluCharを導入し、モデルの失敗の鍵となるメカニズムを明らかにする。この問題に対処するために,人間の視覚的知覚戦略と整合するプラグイン・アンド・プレイ・フレームワークであるマルチスケール知覚戦略(SMSP)を提案する。高周波背景の邪魔を抑えることで、SMSPは人間の知覚に近い画像を生成する。実験により、SMSPは、例えば、Qwen3-VL-8B-インストラクトの精度を13.0%から84.0%に向上するなど、イリュージョン画像における全ての評価MLLMの性能を著しく向上することが示された。我々の研究はMLLMの視覚的知覚に関する新しい洞察を提供し、それを強化するための実用的で堅牢なソリューションを提供する。私たちのコードはhttps://github.com/Tujz2023/SMSP.comで公開されています。

関連論文リスト

Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文参考訳（メタデータ） (2025-12-06T04:20:13Z)
One More Glance with Sharp Eyes: Rethinking Lightweight Captioning as a Practical Visual Specialist [58.89538703878721]
125M-パラメータ言語モデルを用いて,軽量キャプションモデルを構築した。単文で評価するが、詳細なキャプションタスクで評価する。シャープ・イード・リファインメント (Sharp-Eyed Refinement) という新しいキャプション・フレームワークを開発し, 粗い記述をより正確なキャプションに書き換えることでキャプションの質を高める。
論文参考訳（メタデータ） (2025-08-29T09:29:27Z)
ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。 ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文参考訳（メタデータ） (2025-06-11T19:16:54Z)
SemVink: Advancing VLMs' Semantic Understanding of Optical Illusions via Visual Global Thinking [31.356290235986332]
視覚言語モデル(VLM)は、セマンティックなタスクでは優れているが、中心となる人間の能力には優れている。 HC-Benchは、隠れテキスト、オブジェクト、イリュージョンを備えた112の画像のベンチマークである。本稿では,余剰な視覚ノイズを排除し,99%の精度を解放するSemVink(Semantic Visual Thinking)を提案する。
論文参考訳（メタデータ） (2025-06-03T12:33:47Z)
MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。 tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文参考訳（メタデータ） (2025-02-02T08:34:57Z)
Mirage in the Eyes: Hallucination Attack on Multi-modal Large Language Models with Only Attention Sink [22.781487074263957]
MLLM(Multi-modal Large Language Models)は、視覚言語アプリケーションに革命をもたらしている。しかし、これらのモデルは視覚的内容と一致しない不正確なオブジェクト、属性、関係を生成するという幻覚の問題に悩まされることが多い。本稿では,注目シンク行動を利用したMLLMに対する新たな幻覚攻撃を提案する。
論文参考訳（メタデータ） (2025-01-25T16:36:00Z)
Combating Multimodal LLM Hallucination via Bottom-Up Holistic Reasoning [151.4060202671114]
マルチモーダル大規模言語モデル(MLLM)は、視覚言語タスクを前進させる前例のない能力を示した。本稿では,MLLMにおける幻覚に対処するためのボトムアップ推論フレームワークを提案する。本フレームワークは、認識レベル情報と認知レベルコモンセンス知識を検証・統合することにより、視覚とテキストの両方の入力における潜在的な問題に体系的に対処する。
論文参考訳（メタデータ） (2024-12-15T09:10:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。