Fugu-MT 論文翻訳(概要): When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

論文の概要: When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models

arxiv url: http://arxiv.org/abs/2603.03989v1
Date: Wed, 04 Mar 2026 12:33:36 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.29842
Title: When Visual Evidence is Ambiguous: Pareidolia as a Diagnostic Probe for Vision Models
Title（参考訳）: 視覚的エビデンスが曖昧である場合--視覚モデルのための診断プローブとしてのPareidolia
Authors: Qianpu Chen, Derya Soydaner, Rob Saunders,
Abstract要約: 非顔オブジェクトにおける顔の知覚である顔パリドリアは、この行動の制御されたプローブを提供する。本研究では,顔パレドリア画像における検出,局所化,不確実性,偏見,難易度,感情を解析する表現レベル診断フレームワークを提案する。
参考スコア（独自算出の注目度）: 0.5461938536945722
License: http://creativecommons.org/licenses/by/4.0/
Abstract: When visual evidence is ambiguous, vision models must decide whether to interpret face-like patterns as meaningful. Face pareidolia, the perception of faces in non-face objects, provides a controlled probe of this behavior. We introduce a representation-level diagnostic framework that analyzes detection, localization, uncertainty, and bias across class, difficulty, and emotion in face pareidolia images. Under a unified protocol, we evaluate six models spanning four representational regimes: vision-language models (VLMs; CLIP-B/32, CLIP-L/14, LLaVA-1.5-7B), pure vision classification (ViT), general object detection (YOLOv8), and face detection (RetinaFace). Our analysis reveals three mechanisms of interpretation under ambiguity. VLMs exhibit semantic overactivation, systematically pulling ambiguous non-human regions toward the Human concept, with LLaVA-1.5-7B producing the strongest and most confident over-calls, especially for negative emotions. ViT instead follows an uncertainty-as-abstention strategy, remaining diffuse yet largely unbiased. Detection-based models achieve low bias through conservative priors that suppress pareidolia responses even when localization is controlled. These results show that behavior under ambiguity is governed more by representational choices than score thresholds, and that uncertainty and bias are decoupled: low uncertainty can signal either safe suppression, as in detectors, or extreme over-interpretation, as in VLMs. Pareidolia therefore provides a compact diagnostic and a source of ambiguity-aware hard negatives for probing and improving the semantic robustness of vision-language systems. Code will be released upon publication.
Abstract（参考訳）: 視覚的証拠が曖昧である場合、視覚モデルは、顔のようなパターンを意味のあるものとして解釈するかどうかを決定する必要がある。非顔オブジェクトにおける顔の知覚である顔パリドリアは、この行動の制御されたプローブを提供する。本研究では,顔パレドリア画像における検出,局所化,不確実性,偏見,難易度,感情を解析する表現レベル診断フレームワークを提案する。統一されたプロトコルの下では、視覚言語モデル(VLM)、CLIP-B/32、CLIP-L/14、LLaVA-1.5-7B)、純粋視覚分類(ViT)、汎用物体検出(YOLOv8)、顔検出(RetinaFace)の6つのモデルを評価する。我々の分析は曖昧さの下での解釈の3つのメカニズムを明らかにする。 VLMは意味過剰な活性化を示し、系統的に不明瞭な非ヒトの領域を人間の概念に向け、LLaVA-1.5-7Bは特に否定的な感情に対して最も強く、最も自信のあるオーバーコールを生み出している。代わりに、ViTは不確実性回避戦略に従い、拡散は残るが、ほとんどバイアスを伴わない。検出に基づくモデルは、局所化が制御された場合でもパリドリア応答を抑制する保守的な先行性を通じて低いバイアスを達成する。これらの結果は、あいまいさの行動はスコア閾値よりも表現的選択によってより支配され、不確実性と偏見は疎結合であることを示している。 Pareidoliaは、視覚言語システムのセマンティックロバスト性を探索し改善するために、コンパクトな診断とあいまいさを意識したハードネガティブの源を提供する。コードは出版時に公開される。

関連論文リスト

Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文参考訳（メタデータ） (2026-02-06T12:24:26Z)
ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
Vision-Language Introspection: Mitigating Overconfident Hallucinations in MLLMs via Interpretable Bi-Causal Steering [33.3588824921581]
メタ認知的自己補正プロセスをシミュレートするトレーニングフリー推論フレームワークであるVision-Language Introspection (VLI)を導入する。 VLIは高度なモデルで最先端のパフォーマンスを実現し、MMHal-Benchではオブジェクト幻覚率を12.67%削減し、POPEでは精度を5.8%向上した。
論文参考訳（メタデータ） (2026-01-08T17:49:13Z)
Grounding or Guessing? Visual Signals for Detecting Hallucinations in Sign Language Translation [13.03365340564181]
幻覚は視覚言語モデルの重大な欠陥であり、手話翻訳において特に重要である。本稿では,デコーダの視覚情報利用量を定量化するトークンレベルの信頼性尺度を提案する。以上の結果から、信頼性は幻覚率を予測し、データセットやアーキテクチャをまたいで一般化し、視覚的劣化の下で低下することが示された。
論文参考訳（メタデータ） (2025-10-21T09:13:46Z)
RoboView-Bias: Benchmarking Visual Bias in Embodied Agents for Robotic Manipulation [67.38036090822982]
ロボット操作における視覚バイアスの定量化を目的とした,最初のベンチマークであるRoboView-Biasを提案する。我々は、個々の視覚的要因とその相互作用によって引き起こされるバイアスの堅牢な測定を可能にする2,127のタスクインスタンスを作成します。本研究は,視覚バイアスの系統的解析が,安全で信頼性の高い汎用的なエンボディエージェントの開発に必須であることを示す。
論文参考訳（メタデータ） (2025-09-26T13:53:25Z)
Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models [24.363156120809546]
劣化文書理解におけるOCR幻覚評価のための最初のベンチマークであるKIE-HVQAを提案する。このデータセットには、IDカードと請求書にまたがるテストサンプルが含まれており、OCR信頼性のための実世界の劣化をシミュレートしている。 Qwen2.5-VL 実験により,GPT-4o に対して 7B-パラメータモデルでは幻覚のない精度が 22% 向上していることが示された。
論文参考訳（メタデータ） (2025-06-25T06:44:07Z)
LLMs Are Not Yet Ready for Deepfake Image Detection [8.364956401923108]
視覚言語モデル(VLM)は、様々な領域にまたがる有望なツールとして登場した。本研究は, ファスワップ, 再現, 合成生成の3つの主要なディープフェイクタイプに焦点を当てた。解析の結果、VLMはコヒーレントな説明を生成でき、表面レベルの異常を検出できるが、スタンドアロン検出システムとしてはまだ信頼できないことが示唆された。
論文参考訳（メタデータ） (2025-06-12T08:27:24Z)
Towards a Systematic Evaluation of Hallucinations in Large-Vision Language Models [57.58426038241812]
LVLM(Large Vision-Language Models)は、複雑なマルチモーダルタスクにおいて顕著な性能を示す。これらのモデルは、画像から様々な視覚的実体を暗黙的に認識または推測する必要がある場合、まだ幻覚に悩まされている。本稿では,視覚的質問応答(VQA)ベンチマークを提案する。
論文参考訳（メタデータ） (2024-12-29T23:56:01Z)
Unsupervised Model Diagnosis [49.36194740479798]
本稿では,ユーザガイドを使わずに,意味論的対実的説明を生成するために,Unsupervised Model Diagnosis (UMO)を提案する。提案手法は意味論における変化を特定し可視化し,その変化を広範囲なテキストソースの属性と照合する。
論文参考訳（メタデータ） (2024-10-08T17:59:03Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。