論文の概要: SemVink: Advancing VLMs' Semantic Understanding of Optical Illusions via Visual Global Thinking
- arxiv url: http://arxiv.org/abs/2506.02803v1
- Date: Tue, 03 Jun 2025 12:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.62305
- Title: SemVink: Advancing VLMs' Semantic Understanding of Optical Illusions via Visual Global Thinking
- Title(参考訳): SemVink:視覚的グローバル思考によるVLMの視覚的錯覚のセマンティック理解の促進
- Authors: Sifan Li, Yujun Cai, Yiwei Wang,
- Abstract要約: 視覚言語モデル(VLM)は、セマンティックなタスクでは優れているが、中心となる人間の能力には優れている。
HC-Benchは、隠れテキスト、オブジェクト、イリュージョンを備えた112の画像のベンチマークである。
本稿では,余剰な視覚ノイズを排除し,99%の精度を解放するSemVink(Semantic Visual Thinking)を提案する。
- 参考スコア(独自算出の注目度): 12.215295420714787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) excel in semantic tasks but falter at a core human capability: detecting hidden content in optical illusions or AI-generated images through perceptual adjustments like zooming. We introduce HC-Bench, a benchmark of 112 images with hidden text, objects, and illusions, revealing that leading VLMs achieve near-zero accuracy (0-5.36%)-even with explicit prompting. Humans resolve such ambiguities instinctively, yet VLMs fail due to an overreliance on high-level semantics. Strikingly, we propose SemVink (Semantic Visual Thinking) by simply scaling images to low resolutions (32-128 pixels), which unlocks >99% accuracy by eliminating redundant visual noise. This exposes a critical architectural flaw: VLMs prioritize abstract reasoning over low-level visual operations crucial for real-world robustness. Our work urges a shift toward hybrid models integrating multi-scale processing, bridging the gap between computational vision and human cognition for applications in medical imaging, security, and beyond.
- Abstract(参考訳): 視覚言語モデル(VLM)は、セマンティックなタスクでは優れるが、人間の中心的な能力は、ズームのような知覚的な調整によって、光学錯視やAI生成画像に隠された内容を検出することである。
HC-Benchは、隠れテキスト、オブジェクト、イリュージョンを持つ112の画像のベンチマークで、先導VLMが明示的なプロンプトでほぼゼロに近い精度(0-5.36%)を達成することを示した。
人間はそのような曖昧さを直感的に解決するが、VLMは高レベルの意味論への過度な依存のために失敗する。
本稿では,低解像度(32-128ピクセル)の画像を単純にスケールアップすることで,余剰な視覚ノイズを排除し,99%の精度を解放するSemVink(Semantic Visual Thinking)を提案する。
VLMは、現実の堅牢性に不可欠な低レベルの視覚操作よりも抽象的推論を優先する。
我々の研究は、マルチスケール処理の統合によるハイブリッドモデルへのシフトを促し、医療画像、セキュリティなどへの応用のために、コンピュータビジョンと人間の認知のギャップを埋める。
関連論文リスト
- Text Speaks Louder than Vision: ASCII Art Reveals Textual Biases in Vision-Language Models [93.46875303598577]
視覚言語モデル(VLM)は、マルチモーダル情報処理において急速に進歩しているが、競合する信号の整合性は未解明のままである。
この研究は、VLMがASCIIアートをどう処理するかを考察する。
論文 参考訳(メタデータ) (2025-04-02T10:47:07Z) - Semantic-Clipping: Efficient Vision-Language Modeling with Semantic-Guidedd Visual Selection [53.558449071113245]
Vision-Language Models (VLM) は、アライメントされたビジュアルエンコーダを利用して、画像をビジュアルトークンに変換することで、バックボーン大言語モデル (LLM) によるテキストと同じように処理することができる。
視覚言語モデリングの最近の進歩は、すべての符号化されたサブイメージをモデルに供給する画像トリミング技術を導入している。
本稿では,既存のVLMとシームレスに統合し,細粒度処理能力を高める軽量で普遍的なフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-14T18:33:31Z) - MINT: Mitigating Hallucinations in Large Vision-Language Models via Token Reduction [6.416957959150438]
幻覚は、高い信頼性を必要とする領域におけるLVLM(Large Vision-Language Models)の適用を妨げる。
tokeN再帰による幻覚を緩和する訓練不要な復号法であるMINTを提案する。
提案手法は,従来のモデルに比べて知覚障害による幻覚の緩和効果が4%向上する。
論文 参考訳(メタデータ) (2025-02-02T08:34:57Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Saliency Suppressed, Semantics Surfaced: Visual Transformations in Neural Networks and the Brain [0.0]
私たちは神経科学からインスピレーションを得て、ニューラルネットワークが情報を低(視覚的満足度)で高(セマンティックな類似性)の抽象レベルでエンコードする方法について光を当てています。
ResNetsは、オブジェクト分類の目的によって訓練された場合、ViTsよりも唾液度情報に敏感であることが分かりました。
我々は、セマンティックエンコーディングがAIと人間の視覚知覚を協調させる重要な要素であることを示し、サリエンシ抑制は非脳的な戦略であることを示した。
論文 参考訳(メタデータ) (2024-04-29T15:05:42Z) - IllusionVQA: A Challenging Optical Illusion Dataset for Vision Language Models [21.589318022339317]
IllusionVQA: 難解な錯視と難解なシーンのデータセットを提示する。
人間の評価は、人間が理解と局在において91.03%と100%の精度を達成することを明らかにしている。
論文 参考訳(メタデータ) (2024-03-23T23:06:32Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot Vision-Language Understanding [88.24517460894634]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。