論文の概要: Beyond Shortcuts: Mitigating Visual Illusions in Frozen VLMs via Qualitative Reasoning
- arxiv url: http://arxiv.org/abs/2604.26250v1
- Date: Wed, 29 Apr 2026 03:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.235727
- Title: Beyond Shortcuts: Mitigating Visual Illusions in Frozen VLMs via Qualitative Reasoning
- Title(参考訳): ショートカットを超えて:定性推論による凍結型VLMにおける視覚的錯覚の軽減
- Authors: Hao Guo, Fei Wang, Junjie Chen, Yiqi Nie, Jiaqi Zhao, Qiankun Li, Subin Huang,
- Abstract要約: 凍結したビジョンランゲージモデルにおける視覚的グラウンドの強化を目的とした,トレーニングフリーでデータ中心のフレームワークを提案する。
我々のフレームワークは、DataCV 2026 Challenge (Task I: Classic Illusion Understanding)で評価され、総合2位にランクインした。
我々の成功は、次世代のイリュージョンに耐性のある視覚言語システムを開発するための堅牢なパラダイムとして、構造化定性的接地の可能性を示している。
- 参考スコア(独自算出の注目度): 14.700305370711973
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Vision-Language Models (VLMs) have achieved state-of-the-art performance in general visual tasks, their perceptual robustness remains remarkably brittle when confronted with optical illusions. These failures are often attributed to shortcut heuristics, where models prioritize linguistic priors and memorized prototypes over direct visual evidence. In this work, we propose Structured Qualitative Inference (SQI), a training-free, data-centric framework designed to fortify visual grounding in frozen VLMs. SQI addresses perceptual anomalies through three systematic modules: (1) Axiomatic Constraint Injection, which suppresses erroneous metric estimations and quantitative hallucinations; (2) Hierarchical Scene Decomposition, which decouples target visual manifolds from complex background distractors; and (3) Counterfactual Self-Verification, an adversarial reasoning step that mitigates confirmation bias. By orchestrating these qualitative constraints at inference time, SQI effectively aligns high-level linguistic reasoning with low-level visual perception. Our framework was evaluated on the DataCV 2026 Challenge (Task I: Classic Illusion Understanding), where it ranked 2nd place overall. Experimental results demonstrate that SQI not only significantly enhances accuracy across diverse illusion categories but also provides superior diagnostic interpretability without any model fine-tuning. Our success underscores the potential of structured qualitative grounding as a robust paradigm for developing next-generation, illusion-resistant vision-language systems.
- Abstract(参考訳): VLM(Vision-Language Models)は、一般的な視覚タスクにおいて最先端のパフォーマンスを達成したが、光学的錯覚に直面した場合、その知覚的堅牢性は著しく不安定である。
これらの失敗は、しばしばショートカット・ヒューリスティック(英語版)によるものであり、モデルが直接的な視覚的証拠よりも言語的先行と記憶されたプロトタイプを優先する。
本研究では,凍結VLMにおける視覚的グラウンドの強化を目的とした,トレーニング不要でデータ中心のフレームワークであるStructured Qualitative Inference (SQI)を提案する。
SQIは,(1)誤った計量推定や量的幻覚を抑制する軸的制約注入,(2)複雑な背景障害から視覚多様体を分離する階層的シーン分解,(3)非現実的自己検証,という3つの系統的モジュールを通して知覚異常に対処する。
これらの定性的制約を推論時に整理することにより、SQIは高レベルの言語推論と低レベルの視覚知覚を効果的に整合させる。
我々のフレームワークは、DataCV 2026 Challenge (Task I: Classic Illusion Understanding)で評価され、総合2位にランクインした。
実験結果から,SQIは様々な錯覚カテゴリの精度を著しく向上するだけでなく,モデル微調整を伴わずに診断の精度も向上することが示された。
我々の成功は、次世代のイリュージョンに耐性のある視覚言語システムを開発するための堅牢なパラダイムとして、構造化定性的接地の可能性を示している。
関連論文リスト
- Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Seeing the Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions [2.9521041993295607]
視覚言語モデル(VLM)は、古典的な光学錯視に直面した場合、体系的なバイアスを示す。
モデルトレーニングなしでこの障害モードに対処するツール誘導推論フレームワークを提案する。
我々は3つの経験的観察を報告し、さらなる調査を保証していると信じている。
論文 参考訳(メタデータ) (2026-03-31T08:35:10Z) - ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。
具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。
本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文 参考訳(メタデータ) (2026-01-23T11:31:07Z) - Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。
このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。
Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文 参考訳(メタデータ) (2025-06-25T06:44:07Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Visual Perturbation-aware Collaborative Learning for Overcoming the
Language Prior Problem [60.0878532426877]
本稿では,視覚的摂動校正の観点から,新しい協調学習手法を提案する。
具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案する。
2つの診断VQA-CPベンチマークデータセットの実験結果は、その効果を明らかに示している。
論文 参考訳(メタデータ) (2022-07-24T23:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。