論文の概要: DISSECT: Diagnosing Where Vision Ends and Language Priors Begin in Scientific VLMs
- arxiv url: http://arxiv.org/abs/2604.06250v1
- Date: Mon, 06 Apr 2026 18:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.116294
- Title: DISSECT: Diagnosing Where Vision Ends and Language Priors Begin in Scientific VLMs
- Title(参考訳): DISSECT:科学的なVLMで視覚と言語がいつ終わるのかを診断する
- Authors: Dikshant Kukreja, Kshitij Sah, Karan Goyal, Mukesh Mohania, Vikram Goyal,
- Abstract要約: 視覚情報の抽出に成功したが、下流の推論中に失われる障害である。
化学(7000)と生物学(5,000)にまたがる12,000の診断ベンチマークであるDisdisSECTを紹介する。
すべての質問は、Vision+Text、Text-Only、Vision-Only、Human Oracle、そして新しいモデルOracleの5つの入力モードで評価されます。
- 参考スコア(独自算出の注目度): 4.915093391773735
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When asked to describe a molecular diagram, a Vision-Language Model correctly identifies ``a benzene ring with an -OH group.'' When asked to reason about the same image, it answers incorrectly. The model can see but it cannot think about what it sees. We term this the perception-integration gap: a failure where visual information is successfully extracted but lost during downstream reasoning, invisible to single-configuration benchmarks that conflate perception with integration under one accuracy number. To systematically expose such failures, we introduce DISSECT, a 12,000-question diagnostic benchmark spanning Chemistry (7,000) and Biology (5,000). Every question is evaluated under five input modes -- Vision+Text, Text-Only, Vision-Only, Human Oracle, and a novel Model Oracle in which the VLM first verbalizes the image and then reasons from its own description -- yielding diagnostic gaps that decompose performance into language-prior exploitation, visual extraction, perception fidelity, and integration effectiveness. Evaluating 18~VLMs, we find that: (1) Chemistry exhibits substantially lower language-prior exploitability than Biology, confirming molecular visual content as a harder test of genuine visual reasoning; (2) Open-source models consistently score higher when reasoning from their own verbalized descriptions than from raw images, exposing a systematic integration bottleneck; and (3) Closed-source models show no such gap, indicating that bridging perception and integration is the frontier separating open-source from closed-source multimodal capability. The Model Oracle protocol is both model and benchmark agnostic, applicable post-hoc to any VLM evaluation to diagnose integration failures.
- Abstract(参考訳): 分子図式を記述するように頼まれると、ビジョン・ランゲージ・モデル(Vision-Language Model)は-OH 群を持つ ``a ベンゼン環を正しく同定する。
「「同じ画像の理由を尋ねると、間違って答える。」
モデルは見ることができますが、何を見るかは考えません。
視覚情報の抽出に成功したが、下流の推論中に失われる失敗は、単一構成のベンチマークでは見えず、1つの精度で認識と統合を区別する。
このような障害を系統的に暴露するために,化学(7000)と生物学(5,000)にまたがる12,000の診断ベンチマークであるDisdisSECTを導入する。
すべての質問は、5つの入力モード(Vision+Text、Text-Only、Vision-Only、Human Oracle、そしてVLMが最初にイメージを言語化し、その説明から理由を推論する新しいモデルOracleで評価されます。
18~VLMを評価したところ,(1) 化学は生物学よりも言語優先的利用性が著しく低いこと,(2) 分子視覚内容が真の視覚的推論の難しいテストであることを確認したこと,(2) オープンソースモデルは,原画像より独自の言語的記述から推論し,体系的な統合ボトルネックを明らかにすること,(3) クローズドソースモデルはそのようなギャップを示さないこと,そして,ブリッジング知覚と統合が,オープンソースをクローズドソースのマルチモーダル能力から切り離すフロンティアであること,などが判明した。
Model Oracle のプロトコルはモデルおよびベンチマークに依存しず、統合障害の診断に VLM の評価に適用できる。
関連論文リスト
- Hidden Meanings in Plain Sight: RebusBench for Evaluating Cognitive Visual Reasoning [14.135916464098317]
現在のモデルは、情報が明示的に表現されていない問題を解くのに必要な、複雑で多段階の推論に苦しむ。
認識と知識の特定の統合をテストするために設計された1,164のパズルのベンチマークであるRebusBenchを紹介する。
提案手法の評価では, 性能が10%未満に飽和し, セマンティックな精度が20%であった。
論文 参考訳(メタデータ) (2026-04-02T08:33:13Z) - Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities? [61.533560295383786]
Unified Multimodal Large Language Models (U-MLLM) は、単一のアーキテクチャ内で理解と生成を統合する。
我々は,U-MLLMが画像のモダリティにおいて同じ結果をレンダリングするために必要な場合,意味的等価性を維持することができないことを観察する。
VGUBenchは、推論ロジックを生成の忠実性から切り離すためのフレームワークである。
論文 参考訳(メタデータ) (2026-02-27T06:23:56Z) - MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - Attention Guided Alignment in Efficient Vision-Language Models [56.20286899428444]
VLM(Large Vision-Language Models)は、事前訓練された視覚エンコーダとLLM(Large Language Models)の効果的なマルチモーダルアライメントに依存している。
本稿では,効率的なVLMにおける注意パターンの包括的解析について述べる。
本稿では,Attention-Guided Efficient Vision-Language Models (AGE-VLM)を紹介する。
論文 参考訳(メタデータ) (2025-11-21T21:36:48Z) - From Gaze to Insight: Bridging Human Visual Attention and Vision Language Model Explanation for Weakly-Supervised Medical Image Segmentation [48.45209969191245]
視覚言語モデル(VLM)は、テキスト記述を通して意味的コンテキストを提供するが、説明精度は欠如している。
本稿では,その補完的強みを活かし,視線と言語指導を統合した教師教育フレームワークを提案する。
本手法は,8.78%,80.53%,84.22%のDiceスコアをそれぞれ達成し,アノテーション負担を増大させることなく視線ベースラインよりも3.5%向上した。
論文 参考訳(メタデータ) (2025-04-15T16:32:15Z) - Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis [44.0659716298839]
現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。
本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:19:07Z) - Unveiling the Unseen: A Comprehensive Survey on Explainable Anomaly Detection in Images and Videos [49.07140708026425]
画像やビデオを含む視覚データの異常検出とローカライゼーションは、機械学習や現実世界のアプリケーションにおいて不可欠である。
本稿では,説明可能な2次元視覚異常検出(X-VAD)に焦点を当てた初の包括的調査を行う。
本稿では,その基礎技術によって分類された説明可能な手法の文献レビューを行う。
我々は、将来的な方向性と、説明品質の定量化を含むオープンな問題について議論する。
論文 参考訳(メタデータ) (2023-02-13T20:17:41Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。