論文の概要: Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation
- arxiv url: http://arxiv.org/abs/2508.10367v2
- Date: Tue, 14 Oct 2025 07:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.815545
- Title: Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation
- Title(参考訳): マルチモーダル大言語モデルにおけるコントラスト感度:心理物理学に着想を得た評価
- Authors: Pablo Hernández-Cámara, Alexandra Gomez-Villa, Jose Manuel Jaén-Lorites, Jorge Vila-Tomás, Valero Laparra, Jesus Malo,
- Abstract要約: マルチモーダル大言語モデル(MLLM)におけるコントラスト感度関数(CSF)を推定するための行動的手法を提案する。
モデルは、特定の空間周波数でフィルタリングされた雑音に基づく刺激を観察しながら、構造化されたプロンプトでクエリされる。
以上の結果から,人間のCSFと形状やスケールが似ているモデルもあるが,どちらのモデルも捉えていないことが判明した。
- 参考スコア(独自算出の注目度): 37.9406446788251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how Multimodal Large Language Models (MLLMs) process low-level visual features is critical for evaluating their perceptual abilities and has not been systematically characterized. Inspired by human psychophysics, we introduce a behavioural method for estimating the Contrast Sensitivity Function (CSF) in MLLMs by treating them as end-to-end observers. Models are queried with structured prompts while viewing noise-based stimuli filtered at specific spatial frequencies. Psychometric functions are derived from the binary verbal responses, and contrast thresholds (and CSFs) are obtained without relying on internal activations or classifier-based proxies. Our results reveal that some models resemble human CSFs in shape or scale, but none capture both. We also find that CSF estimates are highly sensitive to prompt phrasing, indicating limited linguistic robustness. Finally, we show that CSFs predict model performance under frequency-filtered and adversarial conditions. These findings highlight systematic differences in frequency tuning across MLLMs and establish CSF estimation as a scalable diagnostic tool for multimodal perception.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)が低レベルの視覚的特徴をどのように処理するかを理解することは、知覚能力を評価する上で重要であり、体系的に特徴づけられていない。
人間の心理物理学に触発されて,MLLMのコントラスト感度関数(Contrast Sensitivity Function, CSF)をエンド・ツー・エンドのオブザーバとして扱うことによって推定する行動的手法を提案する。
モデルは、特定の空間周波数でフィルタリングされた雑音に基づく刺激を観察しながら、構造化されたプロンプトでクエリされる。
心理測定関数は二項の動詞応答から導出され、コントラスト閾値(およびCSF)は内部のアクティベーションや分類器ベースのプロキシに頼らずに得られる。
以上の結果から,人間のCSFと形状やスケールが似ているモデルもあるが,どちらのモデルも捉えていないことが判明した。
また, CSF推定は, 言語的頑健さが限定的であることが示唆され, 句読解に非常に敏感であることが示唆された。
最後に,周波数フィルタおよび逆数条件下でのCSFによるモデル性能の予測について述べる。
これらの知見は、MLLM間の周波数調整の系統的差異を強調し、マルチモーダル認識のためのスケーラブルな診断ツールとしてCSF推定を確立する。
関連論文リスト
- SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [50.69448058071441]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換をシミュレートする生成フレームワークであるSynBrainを提案する。
そこで本研究では,SynBrainが主観的視覚-fMRI符号化性能において最先端の手法を超越していることを示す。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - UniAR: A Unified model for predicting human Attention and Responses on visual content [12.281060227170792]
多様な視覚コンテンツにまたがる人間の注意と嗜好行動の統一モデルUniARを提案する。
自然画像、Webページ、グラフィックデザインにまたがる様々な公開データセットに基づいてUniARをトレーニングし、複数のベンチマークでSOTA性能を達成する。
潜在的なアプリケーションには、UI/視覚コンテンツの有効性に関する即時フィードバックの提供や、デザイナとコンテンツ作成モデルによる人間中心の改善のための作成の最適化などが含まれる。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Multimodal perception for dexterous manipulation [14.314776558032166]
視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案する。
本稿では,空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時間的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T21:20:26Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。