論文の概要: Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation
- arxiv url: http://arxiv.org/abs/2508.10367v2
- Date: Tue, 14 Oct 2025 07:55:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-15 14:23:56.815545
- Title: Contrast Sensitivity in Multimodal Large Language Models: A Psychophysics-Inspired Evaluation
- Title(参考訳): マルチモーダル大言語モデルにおけるコントラスト感度:心理物理学に着想を得た評価
- Authors: Pablo Hernández-Cámara, Alexandra Gomez-Villa, Jose Manuel Jaén-Lorites, Jorge Vila-Tomás, Valero Laparra, Jesus Malo,
- Abstract要約: マルチモーダル大言語モデル(MLLM)におけるコントラスト感度関数(CSF)を推定するための行動的手法を提案する。
モデルは、特定の空間周波数でフィルタリングされた雑音に基づく刺激を観察しながら、構造化されたプロンプトでクエリされる。
以上の結果から,人間のCSFと形状やスケールが似ているモデルもあるが,どちらのモデルも捉えていないことが判明した。
- 参考スコア(独自算出の注目度): 37.9406446788251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding how Multimodal Large Language Models (MLLMs) process low-level visual features is critical for evaluating their perceptual abilities and has not been systematically characterized. Inspired by human psychophysics, we introduce a behavioural method for estimating the Contrast Sensitivity Function (CSF) in MLLMs by treating them as end-to-end observers. Models are queried with structured prompts while viewing noise-based stimuli filtered at specific spatial frequencies. Psychometric functions are derived from the binary verbal responses, and contrast thresholds (and CSFs) are obtained without relying on internal activations or classifier-based proxies. Our results reveal that some models resemble human CSFs in shape or scale, but none capture both. We also find that CSF estimates are highly sensitive to prompt phrasing, indicating limited linguistic robustness. Finally, we show that CSFs predict model performance under frequency-filtered and adversarial conditions. These findings highlight systematic differences in frequency tuning across MLLMs and establish CSF estimation as a scalable diagnostic tool for multimodal perception.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)が低レベルの視覚的特徴をどのように処理するかを理解することは、知覚能力を評価する上で重要であり、体系的に特徴づけられていない。
人間の心理物理学に触発されて,MLLMのコントラスト感度関数(Contrast Sensitivity Function, CSF)をエンド・ツー・エンドのオブザーバとして扱うことによって推定する行動的手法を提案する。
モデルは、特定の空間周波数でフィルタリングされた雑音に基づく刺激を観察しながら、構造化されたプロンプトでクエリされる。
心理測定関数は二項の動詞応答から導出され、コントラスト閾値(およびCSF)は内部のアクティベーションや分類器ベースのプロキシに頼らずに得られる。
以上の結果から,人間のCSFと形状やスケールが似ているモデルもあるが,どちらのモデルも捉えていないことが判明した。
また, CSF推定は, 言語的頑健さが限定的であることが示唆され, 句読解に非常に敏感であることが示唆された。
最後に,周波数フィルタおよび逆数条件下でのCSFによるモデル性能の予測について述べる。
これらの知見は、MLLM間の周波数調整の系統的差異を強調し、マルチモーダル認識のためのスケーラブルな診断ツールとしてCSF推定を確立する。
関連論文リスト
- Lyapunov Spectral Analysis of Speech Embedding Trajectories in Psychosis [63.56564189749175]
精神病患者と健常者を対象に, 音声の埋め込みを構造化された臨床インタビューから分析した。
Lyapunov exponent (LE) スペクトルは、単語レベルと回答レベルの埋め込みから計算される。
論文 参考訳(メタデータ) (2026-02-18T08:46:46Z) - E^2-LLM: Bridging Neural Signals and Interpretable Affective Analysis [54.763420895859035]
脳波からの感情分析のための最初のMLLMフレームワークであるELLM2-EEG-to-Emotion Large Language Modelを提案する。
ELLMは学習可能なプロジェクション層を通じて、トレーニング済みのEEGエンコーダとQベースのLLMを統合し、マルチステージのトレーニングパイプラインを使用する。
7つの感情カテゴリーにまたがるデータセット実験により, ELLM2-EEG-to-Emotion Large Language Modelは感情分類において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-01-11T13:21:20Z) - FaithSCAN: Model-Driven Single-Pass Hallucination Detection for Faithful Visual Question Answering [14.550872089352943]
FaithSCANは視覚言語モデルの豊富な内部信号を利用して幻覚を検出する軽量ネットワークである。
本稿では,LLM-as-a-JudgeパラダイムをVQA幻覚に拡張し,モデル依存型監視信号の自動生成のための低コスト戦略を提案する。
深い分析により、幻覚は視覚知覚、相互モーダル推論、言語復号における系統的な内部状態の変化から生じることが示された。
論文 参考訳(メタデータ) (2026-01-01T09:19:39Z) - Perceive and Calibrate: Analyzing and Enhancing Robustness of Medical Multi-Modal Large Language Models [43.46006663176283]
本研究は,種々の摂動が医療MLLMに与える影響を系統的に分析する。
視覚的モダリティのために,MLLMの視覚エンコーダを利用してノイズパターンを識別する摂動認識デノナイジング(PDC)を提案する。
そこで本研究では,MLLMの自己評価機能を活用し,ノイズの多いテキストを精査するセルフ・インスタンス・マルチエージェント・システム(SMS)を設計する。
論文 参考訳(メタデータ) (2025-12-26T10:23:30Z) - Suppressing VLM Hallucinations with Spectral Representation Filtering [49.52703800684483]
視覚言語モデル(VLM)は、画像に存在しないオブジェクト、属性、関係の記述の形で幻覚をしばしば生成する。
本稿では,モデル表現の共分散構造を解析し,補正することにより,このような幻覚を抑制するための軽量な訓練不要な手法であるスペクトル表現フィルタ(SRF)を提案する。
論文 参考訳(メタデータ) (2025-11-15T13:49:27Z) - Benchmarking and Mitigate Sycophancy in Medical Vision-Language Models [21.353225217216252]
視覚言語モデルは、しばしば、証拠に基づく推論よりも、社会的手がかりや認識された権威を記述したユーザーとの整合性に優先順位を付ける、幻想的行動を示す。
本研究は, 新規な臨床評価基準を用いて, 医用視覚質問応答における臨床症状について検討した。
論文 参考訳(メタデータ) (2025-09-26T07:02:22Z) - Multi-View Attention Multiple-Instance Learning Enhanced by LLM Reasoning for Cognitive Distortion Detection [1.660734109310745]
我々は,Large Language Models(LLMs)とMILアーキテクチャを組み合わせた新しいフレームワークを提案し,解釈可能性と表現レベルの推論を向上した。
以上の結果から,精神保健NLPの細粒度推論に対する心理学的根拠と一般化可能なアプローチが示唆された。
論文 参考訳(メタデータ) (2025-09-22T00:18:58Z) - SynBrain: Enhancing Visual-to-fMRI Synthesis via Probabilistic Representation Learning [50.69448058071441]
視覚刺激が皮質反応にどのように変換されるかを理解することは、計算神経科学の基本的な課題である。
視覚的意味論から神経反応への変換をシミュレートする生成フレームワークであるSynBrainを提案する。
そこで本研究では,SynBrainが主観的視覚-fMRI符号化性能において最先端の手法を超越していることを示す。
論文 参考訳(メタデータ) (2025-08-14T03:01:05Z) - ICR Probe: Tracking Hidden State Dynamics for Reliable Hallucination Detection in LLMs [50.18087419133284]
隠れた状態を活用する幻覚検出法は、主に静的および孤立した表現に焦点を当てている。
隠れ状態の更新に対するモジュールの寄与を定量化する新しいメトリック ICR Score を導入する。
本稿では,隠れ状態の層間進化を捉えた幻覚検出手法 ICR Probe を提案する。
論文 参考訳(メタデータ) (2025-07-22T11:44:26Z) - Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Mitigating Object Hallucinations in MLLMs via Multi-Frequency Perturbations [44.83933994734478]
大規模言語モデル (MLLM) は視覚的タスクにおいて顕著な性能を示した。
しかし、MLLMによって生成された応答の正しさは、しばしば物体の幻覚によって損なわれる。
これらの幻覚の主な原因は、物体検出における特定の画像周波数特徴に対するモデルの過度な感受性である。
論文 参考訳(メタデータ) (2025-03-19T04:39:45Z) - Human Cognitive Benchmarks Reveal Foundational Visual Gaps in MLLMs [65.93003087656754]
VisFactorは、よく確立された認知心理学評価から20の視覚中心のサブテストをデジタル化するベンチマークである。
GPT、Gemini、Claude、LLaMA、Qwen、SEEDファミリーから20のフロンティアマルチモーダル言語モデル(MLLM)を評価する。
最高のパフォーマンスモデルは100点中25.19点のスコアしか得られず、精神的な回転、空間的関係推論、図形の識別といったタスクに一貫して失敗する。
論文 参考訳(メタデータ) (2025-02-23T04:21:32Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - UniAR: A Unified model for predicting human Attention and Responses on visual content [12.281060227170792]
多様な視覚コンテンツにまたがる人間の注意と嗜好行動の統一モデルUniARを提案する。
自然画像、Webページ、グラフィックデザインにまたがる様々な公開データセットに基づいてUniARをトレーニングし、複数のベンチマークでSOTA性能を達成する。
潜在的なアプリケーションには、UI/視覚コンテンツの有効性に関する即時フィードバックの提供や、デザイナとコンテンツ作成モデルによる人間中心の改善のための作成の最適化などが含まれる。
論文 参考訳(メタデータ) (2023-12-15T19:57:07Z) - Enhancing HOI Detection with Contextual Cues from Large Vision-Language Models [56.257840490146]
ConCueは、HOI検出における視覚的特徴抽出を改善するための新しいアプローチである。
コンテクストキューをインスタンスと相互作用検出器の両方に統合するマルチトウワーアーキテクチャを用いたトランスフォーマーベースの特徴抽出モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-26T09:11:32Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Multimodal perception for dexterous manipulation [14.314776558032166]
視覚と触覚の変換のためのクロスモーダルな知覚データ生成フレームワークを提案する。
本稿では,空間的特徴と時間次元を考慮した触覚テクスチャ認識のための時間的アテンションモデルを提案する。
論文 参考訳(メタデータ) (2021-12-28T21:20:26Z) - A Psychophysically Oriented Saliency Map Prediction Model [4.884688557957589]
本研究では,人間の視覚野の多チャンネルモデルに触発された新しい心理物理学的サリエンシ予測アーキテクチャであるWECSFを提案する。
提案モデルは、MIT1003、MIT300、トロント、SID4VAM、UCFスポーツデータセットなど、いくつかのデータセットを用いて評価される。
本モデルは, 自然画像, 心理物理合成画像, ダイナミックビデオの様々な測定値を用いて, 安定かつ優れた性能を実現した。
論文 参考訳(メタデータ) (2020-11-08T20:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。