論文の概要: Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.06141v1
- Date: Fri, 06 Mar 2026 10:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.520092
- Title: Spatial Colour Mixing Illusions as a Perception Stress Test for Vision-Language Models
- Title(参考訳): 視覚言語モデルに対する知覚的ストレステストとしての空間色混合イリュージョン
- Authors: Nicoleta-Nina Basoc, Adrian Cosma, Emilian Radoi,
- Abstract要約: 視覚言語モデル(VLM)は強力なベンチマーク結果を得るが、体系的な知覚的弱点を示すことができる。
本研究では,自然画像上に構造パターンをオーバーレイする色歪みのファミリである空間色混合を用いて,このギャップについて検討する。
簡単な人為的な前処理のステップが,いくつかの歪みに対して有意義な性能を回復することを示す。
- 参考スコア(独自算出の注目度): 1.4969391620741985
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision-language models (VLMs) achieve strong benchmark results, yet can exhibit systematic perceptual weaknesses: structured, large changes to pixel values can cause confident yet nonsensical predictions, even when the underlying scene remains easily recognizable to humans. We study this gap using Spatial Colour Mixing, a programmatic family of colour distortions that overlays structured patterns (in both RGB and Ostwald colour systems) onto natural images. We introduce a framework of eight spatial colour mixing variants and evaluate nine VLMs across three model families on four datasets. Across models and datasets, accuracy degrades sharply with increasing distortion, and scaling the language model does not reliably mitigate the failure. In a human study with 61 participants on an animal recognition dataset, humans substantially outperform VLMs under the same distortions. Finally, we show that a simple human-inspired preprocessing step recovers a meaningful portion of performance for several distortion types, motivating perception-aware preprocessing and tool-use as practical strategies for improving VLM robustness.
- Abstract(参考訳): 構造的かつ大きなピクセル値の変更は、人間にとって容易に認識可能なシーンであっても、自信を持っても非感覚的な予測を引き起こす可能性がある。
本研究では,RGBおよびOstwaldカラーシステムにおいて,構造化パターンを自然画像にオーバーレイするカラー歪みのプログラム系である空間カラーミキシングを用いて,このギャップについて検討する。
8種類の空間色混合の枠組みを導入し、4つのデータセット上で3つのモデルファミリーにまたがる9つのVLMを評価した。
モデルとデータセット全体にわたって、精度は歪みの増加とともに急激に低下し、言語モデルをスケールしても、失敗を確実に軽減することはできない。
61人の被験者による人間による動物認識データセットの研究では、人間が同じ歪みの下でVLMを著しく上回っている。
最後に,VLMのロバスト性向上のための実用戦略として,認識認識前処理とツール利用を動機付け,単純な人為的前処理がいくつかの歪みタイプに対して有意義な性能を回復することを示す。
関連論文リスト
- VLM-RobustBench: A Comprehensive Benchmark for Robustness of Vision-Language Models [64.56065206447788]
ビジョン言語モデル(VLM)は、標準の高品質なデータセット上で強力なパフォーマンスを達成する。
VLM-RobustBenchはノイズ、ブラー、天気、デジタル、幾何学にまたがる49種類の拡張型にまたがるベンチマークである。
低重度空間摂動は、視覚的に重度な光度劣化よりも、しばしば性能を低下させる。
論文 参考訳(メタデータ) (2026-03-06T10:58:02Z) - ColorBlindnessEval: Can Vision-Language Models Pass Color Blindness Tests? [3.7113284199760552]
そこで本論文では,視覚的対向シナリオにおける視覚言語モデル(VLM)の堅牢性を評価するための新しいベンチマークであるColorBlindnessEvalを提案する。
本データセットは,0から99までの色の組み合わせを特徴とする石原様画像500枚からなる。
yes/Noとopen-endedのプロンプトを用いて9つのVLMを評価し,そのパフォーマンスを人間の参加者と比較した。
論文 参考訳(メタデータ) (2025-09-23T14:33:21Z) - Visual Bias and Interpretability in Deep Learning for Dermatological Image Analysis [0.0]
本研究では,多型皮膚疾患分類のためのディープラーニングフレームワークを提案する。
我々は、事前学習された畳み込みニューラルネットワーク(DenseNet201, Efficient-NetB5)とトランスフォーマーベースモデル(ViT, Swin Transformer, DinoV2 Large)の性能をベンチマークする。
その結果、RGB前処理のDinoV2は全変種で最高精度(最大93%)とF1スコアを達成した。
論文 参考訳(メタデータ) (2025-08-06T15:57:49Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - A Value Mapping Virtual Staining Framework for Large-scale Histological Imaging [36.95712533471744]
各種条件に適応可能な汎用仮想染色フレームワークを提案する。
そこで本研究では,異なる病態間の仮想色付けの精度を確保するために,値マッピング制約に基づく損失関数を提案する。
論文 参考訳(メタデータ) (2025-01-07T07:45:21Z) - Exploring Color Invariance through Image-Level Ensemble Learning [7.254270666779331]
本研究ではランダムカラー消去という学習戦略を紹介する。
元の画像構造を乱すことなく、トレーニングデータの部分的又は完全な色情報を選択的に消去する。
このアプローチは、過剰適合のリスクを軽減し、色の変化を処理するモデルの能力を強化する。
論文 参考訳(メタデータ) (2024-01-19T06:04:48Z) - Identifying and Mitigating Model Failures through Few-shot CLIP-aided
Diffusion Generation [65.268245109828]
本稿では,突発的相関に付随する障害モードのテキスト記述を生成するためのエンドツーエンドフレームワークを提案する。
これらの記述は拡散モデルのような生成モデルを用いて合成データを生成するのに使うことができる。
本実験では, ハードサブポピュレーションの精度(sim textbf21%$)が著しく向上した。
論文 参考訳(メタデータ) (2023-12-09T04:43:49Z) - Evaluating Concurrent Robustness of Language Models Across Diverse Challenge Sets [46.19529338280716]
言語モデルはブラックボックスの性質が特徴で、しばしば幻覚を呈し、入力の摂動に敏感である。
入力摂動が言語モデルにどう影響するかを,様々な尺度で検討する手法を提案する。
複数の摂動に対するロバスト性に対処するための3つの異なる微調整戦略を提案する。
論文 参考訳(メタデータ) (2023-11-15T02:59:10Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Neural Descent for Visual 3D Human Pose and Shape [67.01050349629053]
入力RGB画像から3次元のポーズと形状を復元するディープニューラルネットワーク手法を提案する。
我々は最近導入された表現力のあるボディ統計モデルGHUMに頼っている。
我々の方法論の中心は、HUmanNeural Descent (HUND)と呼ばれるアプローチの学習と最適化である。
論文 参考訳(メタデータ) (2020-08-16T13:38:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。