Fugu-MT 論文翻訳(概要): MIRAGE: The Illusion of Visual Understanding

論文の概要: MIRAGE: The Illusion of Visual Understanding

arxiv url: http://arxiv.org/abs/2603.21687v2
Date: Thu, 26 Mar 2026 07:38:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 13:32:29.872726
Title: MIRAGE: The Illusion of Visual Understanding
Title（参考訳）: MIRAGE:ビジュアル理解のイライラ
Authors: Mohammad Asadi, Jack W. O'Sullivan, Fang Cao, Tahoura Nedaee, Kamyar Fardi, Fei-Fei Li, Ehsan Adeli, Euan Ashley,
Abstract要約: 本稿では,これらのシステムがどのように処理し,視覚情報を統合するのかという仮定に挑戦する3つの知見を報告する。画像入力がなければ、モデルは一般的なマルチモーダルベンチマークと医療ベンチマークで驚くほど高いスコアを獲得します。我々は、マルチモーダルAIシステムの公平かつ視覚的な評価のための原則的ソリューションとしてB-Cleanを紹介した。
参考スコア（独自算出の注目度）: 13.215216326461382
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal AI systems have achieved remarkable performance across a broad range of real-world tasks, yet the mechanisms underlying visual-language reasoning remain surprisingly poorly understood. We report three findings that challenge prevailing assumptions about how these systems process and integrate visual information. First, Frontier models readily generate detailed image descriptions and elaborate reasoning traces, including pathology-biased clinical findings, for images never provided; we term this phenomenon mirage reasoning. Second, without any image input, models also attain strikingly high scores across general and medical multimodal benchmarks, bringing into question their utility and design. In the most extreme case, our model achieved the top rank on a standard chest X-ray question-answering benchmark without access to any images. Third, when models were explicitly instructed to guess answers without image access, rather than being implicitly prompted to assume images were present, performance declined markedly. Explicit guessing appears to engage a more conservative response regime, in contrast to the mirage regime in which models behave as though images have been provided. These findings expose fundamental vulnerabilities in how visual-language models reason and are evaluated, pointing to an urgent need for private benchmarks that eliminate textual cues enabling non-visual inference, particularly in medical contexts where miscalibrated AI carries the greatest consequence. We introduce B-Clean as a principled solution for fair, vision-grounded evaluation of multimodal AI systems.
Abstract（参考訳）: マルチモーダルAIシステムは、幅広い現実世界のタスクで顕著なパフォーマンスを達成したが、視覚言語推論の基礎となるメカニズムは驚くほど理解されていないままである。本稿では,これらのシステムがどのように処理し,視覚情報を統合するのかという仮定に挑戦する3つの知見を報告する。まず、フロンティアモデルでは、画像が提供されない画像に対して、病理バイアスのある臨床所見を含む詳細な画像記述と精巧な推論の痕跡を容易に生成し、この現象をミラージュ推論と呼ぶ。第二に、画像入力なしでは、一般的なマルチモーダルベンチマークや医療用マルチモーダルベンチマークで驚くほど高いスコアを獲得し、実用性や設計に疑問を呈する。最も極端な場合、我々のモデルは、画像にアクセスすることなく、標準の胸部X線質問応答ベンチマークでトップランクを達成しました。第三に、画像が存在していることを暗黙的に仮定するのではなく、画像アクセスなしで回答を推測するようにモデルが明示的に指示されたとき、性能は著しく低下した。明示的な推測は、画像が提供されたかのようにモデルが振る舞うミラージュ体制とは対照的に、より保守的な反応体制を担っているように見える。これらの発見は、特にAIの誤校正が最大の結果をもたらす医学的文脈において、非視覚的推論を可能にするテキストの手がかりを除去するプライベートベンチマークが緊急に必要であることを示す、視覚言語モデルの推論と評価の方法における根本的な脆弱性を明らかにしている。我々は、マルチモーダルAIシステムの公平かつ視覚的な評価のための原則的ソリューションとしてB-Cleanを紹介した。

関連論文リスト

UbiQVision: Quantifying Uncertainty in XAI for Image Recognition [39.47298454012977]
SHAPの説明は、てんかんやアレタリック不確実性の存在下で不安定で信頼性が低い。本研究はディリクレ後部サンプリングとデンプスター・シェーファー理論を用いて,これらの不安定な説明から生じる不確実性の定量化を行う。
論文参考訳（メタデータ） (2025-12-23T11:57:34Z)
ThinkFake: Reasoning in Multimodal Large Language Models for AI-Generated Image Detection [51.93101033997245]
AI生成画像のリアリズムの増大は、誤情報やプライバシー侵害に対する深刻な懸念を引き起こしている。我々は、AI生成画像検出のための新しい推論に基づく一般化可能なフレームワークThinkFakeを提案する。我々は、ThinkFakeがGenImageベンチマークで最先端の手法より優れており、挑戦的なLOKIベンチマークで強力なゼロショットの一般化を示すことを示す。
論文参考訳（メタデータ） (2025-09-24T07:34:09Z)
DrVD-Bench: Do Vision-Language Models Reason Like Human Doctors in Medical Image Diagnosis? [1.1094764204428438]
臨床ビジュアル推論のための最初のベンチマークであるDrVD-Benchを提案する。 DrVD-Benchは、ビジュアルエビデンス、推論軌道評価、レポート生成評価の3つのモジュールで構成されている。本ベンチマークでは,20のタスクタイプ,17の診断カテゴリ,CT,MRI,超音波,X線撮影,病理の5つの画像モダリティについて検討した。
論文参考訳（メタデータ） (2025-05-30T03:33:25Z)
Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文参考訳（メタデータ） (2025-03-26T16:05:01Z)
JourneyBench: A Challenging One-Stop Vision-Language Understanding Benchmark of Generated Images [72.42826916932519]
生成した画像のベンチマークであるJourneyBenchをリリースし、モデルの微細なマルチモーダル推論能力を評価する。既存のベンチマークとは異なり、JourneyBenchは特異な想像上のシナリオにおいて、きめ細かいマルチモーダル推論を必要とする。 5つのタスクにまたがる結果から、JourneyBenchは最高のモデルでも非常に難しい。
論文参考訳（メタデータ） (2024-09-19T17:58:16Z)
Measuring Agreeableness Bias in Multimodal Models [0.3529736140137004]
本稿では,複数モーダル言語モデルにおける画像に対する事前マーク付きオプションがモデル応答に影響を及ぼす現象について検討する。複数選択質問の画像付きモデルを提示し、まず最初に正解し、次に予めマークされたオプションで同じモデルをバージョンに公開する。この結果から,中立条件下での回答に矛盾する場合でも,事前マーク付きオプションに対するモデルの反応が著しく変化していることが判明した。
論文参考訳（メタデータ） (2024-08-17T06:25:36Z)
Proactive Pseudo-Intervention: Causally Informed Contrastive Learning For Interpretable Vision Models [103.64435911083432]
PPI(Proactive Pseudo-Intervention)と呼ばれる新しい対照的な学習戦略を提案する。 PPIは、因果関係のない画像の特徴を保護するために積極的に介入する。また,重要な画像画素を識別するための,因果的に通知された新たなサリエンスマッピングモジュールを考案し,モデル解釈の容易性を示す。
論文参考訳（メタデータ） (2020-12-06T20:30:26Z)
A Question-Centric Model for Visual Question Answering in Medical Imaging [3.619444603816032]
そこで本稿では,画像の問合せを質問文で行う視覚質問解答手法を提案する。種々の医用・自然画像データセットを用いた実験により, 提案手法は, 画像特徴と疑問特徴を新しい方法で融合させることで, 従来の手法と同等あるいは高い精度を達成できることが示されている。
論文参考訳（メタデータ） (2020-03-02T10:16:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。