論文の概要: Seeing the Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions
- arxiv url: http://arxiv.org/abs/2603.29428v1
- Date: Tue, 31 Mar 2026 08:35:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.356603
- Title: Seeing the Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions
- Title(参考訳): Evidence, Missing the Answer: Tool-Guided Vision-Language Models on Visual Illusions
- Authors: Xuesong Wang, Harry Wang,
- Abstract要約: 視覚言語モデル(VLM)は、古典的な光学錯視に直面した場合、体系的なバイアスを示す。
モデルトレーニングなしでこの障害モードに対処するツール誘導推論フレームワークを提案する。
我々は3つの経験的観察を報告し、さらなる調査を保証していると信じている。
- 参考スコア(独自算出の注目度): 2.9521041993295607
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) exhibit a systematic bias when confronted with classic optical illusions: they overwhelmingly predict the illusion as "real" regardless of whether the image has been counterfactually modified. We present a tool-guided inference framework for the DataCV 2026 Challenge (Tasks I and II) that addresses this failure mode without any model training. An off-the-shelf vision-language model is given access to a small set of generic image manipulation tools: line drawing, region cropping, side-by-side comparison, and channel isolation, together with an illusion-type-routing system prompt that prescribes which tools to invoke for each perceptual question category. Critically, every tool call produces a new, immutable image resource appended to a persistent registry, so the model can reference and compose any prior annotated view throughout its reasoning chain. Rather than hard-coding illusion-specific modules, this generic-tool-plus-routing design yields strong cross-structural generalization: performance remained consistent from the validation set to a test set containing structurally unfamiliar illusion variants (e.g., Mach Bands rotated from vertical to horizontal stacking). We further report three empirical observations that we believe warrant additional investigation: (i) a strong positive-detection bias likely rooted in imbalanced illusion training data, (ii) a striking dissociation between pixel-accurate spatial reasoning and logical inference over self-generated annotations, and (iii) pronounced sensitivity to image compression artifacts that compounds false positives.
- Abstract(参考訳): 視覚言語モデル(VLM)は、古典的な光学錯視に直面した際の体系的な偏見を示しており、画像が偽造されたかどうかに関わらず、圧倒的に「現実的」な錯視を予測している。
本稿では、モデルトレーニングなしでこの障害モードに対処する、DataCV 2026 Challenge(Tasks I, II)のためのツール誘導推論フレームワークを提案する。
市販の視覚言語モデルには、ラインドローイング、リージョントリミング、サイドバイサイド比較、チャンネルアイソレーションといった、一連の一般的な画像操作ツールへのアクセスが与えられ、錯覚型ルーティングシステムプロンプトは、各知覚的質問カテゴリに対してどのツールを呼び出すべきかを規定する。
重要なことは、すべてのツール呼び出しが、永続的なレジストリに付加された新しい不変の画像リソースを生成するため、モデルはその推論チェーン全体を通して、事前のアノテーション付きビューを参照し、構成することができる。
検証セットから構造的に不慣れな錯覚の変種(例えば、マッハバンドが垂直から水平の積み上げから回転する)を含むテストセットまで性能は一貫していた。
さらに3つの経験的観察を報告し、追加の捜査を保証していると信じている。
一 不均衡錯覚訓練データに根ざした強陽性検出バイアス
二 自己生成アノテーションに対する画素精度の空間的推論と論理的推論との顕著な解離、及び
三 偽陽性を配合した画像圧縮品に対する感度
関連論文リスト
- Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation [48.06125338526647]
大規模視覚言語モデル(LVLM)は、マルチイメージタスクにおいて幻覚を起こす傾向がある。
本稿では,クロスイメージ・アテンション・キャリブレーションと優先学習を含む構造化幻覚緩和フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T05:57:27Z) - VAAS: Vision-Attention Anomaly Scoring for Image Manipulation Detection in Digital Forensics [0.0]
AI駆動画像生成の最近の進歩は、法医学的調査におけるデジタル証拠の正当性を検証するための新たな課題をもたらしている。
現代の生成モデルは、画素や圧縮アーチファクトに基づいた従来の検出器を避ける視覚的に一貫した偽造物を生成することができる。
本稿では,グローバルアテンションに基づく異常推定を統合した新しいデュアルモジュール・フレームワークであるVision-Attention Anomaly Scoring(VAAS)を紹介する。
論文 参考訳(メタデータ) (2025-12-17T15:05:40Z) - Leveraging Hierarchical Image-Text Misalignment for Universal Fake Image Detection [58.927873049646024]
実画像と比較して,偽画像は対応するキャプションと適切に一致しないことを示す。
本稿では,視覚空間における画像テキストの不一致を識別的手がかりとして活用し,簡易かつ効果的なITEMを提案する。
論文 参考訳(メタデータ) (2025-11-01T06:51:14Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - RT-VLM: Re-Thinking Vision Language Model with 4-Clues for Real-World Object Recognition Robustness [2.9979091009694088]
現実世界のデプロイメントは、しばしば、最新のオブジェクト認識モデルをドメインシフトに公開し、精度を著しく低下させる。
この劣化を軽減するため、我々はRT-VLM(Re-Thinking Vision Language Model)フレームワークを導入する。
論文 参考訳(メタデータ) (2025-09-01T02:13:00Z) - ViewFool: Evaluating the Robustness of Visual Recognition to Adversarial
Viewpoints [42.64942578228025]
本研究では,視覚認識モデルにミスリードする敵対的視点を見つけるために,ViewFoolという新しい手法を提案する。
現実世界の物体をニューラル放射場(NeRF)として符号化することにより、ViewFoolは多様な敵の視点の分布を特徴付ける。
論文 参考訳(メタデータ) (2022-10-08T03:06:49Z) - Warp Consistency for Unsupervised Learning of Dense Correspondences [116.56251250853488]
密接な対応を学習する上で重要な課題は、実画像対に対する地道整合の欠如である。
密な対応回帰のための教師なし学習目標であるWarp Consistencyを提案する。
私たちのアプローチは、MegaDepth、RobotCar、TSSなど、いくつかの挑戦的なベンチマークに新しい最先端を設定します。
論文 参考訳(メタデータ) (2021-04-07T17:58:22Z) - SIR: Self-supervised Image Rectification via Seeing the Same Scene from
Multiple Different Lenses [82.56853587380168]
本稿では、異なるレンズからの同一シーンの歪み画像の補正結果が同一であるべきという重要な知見に基づいて、新しい自己監督画像補正法を提案する。
我々は、歪みパラメータから修正画像を生成し、再歪み画像を生成するために、微分可能なワープモジュールを利用する。
本手法は,教師付きベースライン法や代表的最先端手法と同等あるいはそれ以上の性能を実現する。
論文 参考訳(メタデータ) (2020-11-30T08:23:25Z) - Unsupervised Landmark Learning from Unpaired Data [117.81440795184587]
教師なしランドマーク学習の最近の試みは、外観は似ているがポーズでは異なる合成画像対を活用する。
本稿では,2回スワッピング・リコンストラクション・ストラテジーを適用して最終監視を行うクロスイメージ・サイクル整合性フレームワークを提案する。
提案するフレームワークは,強いベースラインを大きなマージンで上回ることを示す。
論文 参考訳(メタデータ) (2020-06-29T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。