論文の概要: The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm
- arxiv url: http://arxiv.org/abs/2604.20665v1
- Date: Wed, 22 Apr 2026 15:15:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.1888
- Title: The Expense of Seeing: Attaining Trustworthy Multimodal Reasoning Within the Monolithic Paradigm
- Title(参考訳): モノリシックパラダイムにおける信頼性の高いマルチモーダル推論の実現
- Authors: Karan Goyal, Dikshant Kukreja,
- Abstract要約: 我々は、現在のビジョン・ランゲージ・モデルがマルチモーダルデータを忠実に合成するわけではないと論じる。
モーダリティ変換プロトコル(Modality Translation Protocol)を提案する。
- 参考スコア(独自算出の注目度): 1.0742675209112622
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid proliferation of Vision-Language Models (VLMs) is widely celebrated as the dawn of unified multimodal knowledge discovery but its foundation operates on a dangerous, unquestioned axiom: that current VLMs faithfully synthesise multimodal data. We argue they do not. Instead, a profound crisis of trustworthiness underlies the dominant Vision Encoder-Projector-LLM paradigm. Rather than extracting grounded knowledge from visual inputs, state-of-the-art models frequently exhibit functional blindness, i.e., exploiting strong language priors to bypass severe visual representation bottlenecks. In this work, we challenge the conventional methodology of multimodal evaluation, which relies on data ablation or new dataset creation and therefore fatally conflates dataset biases with architectural incapacity. We propose a radical, information-theoretic departure: the Modality Translation Protocol, designed to quantifiably unmask the Expense of Seeing. By translating semantic payloads rather than ablating them, we formulate three novel metrics -- the Toll (ToS), Curse (CoS), and Fallacy (FoS) of Seeing -- culminating in the Semantic Sufficiency Criterion (SSC). Furthermore, we posit a provocative Divergence Law of Multimodal Scaling, hypothesising that as the underlying language engines scale to unprecedented reasoning capabilities, the mathematical penalty of the visual knowledge bottleneck paradoxically increases. We challenge the KDD community to abandon the illusory pursuit of "multimodal gain". By elevating the SSC from a passive diagnostic constraint to an active architectural blueprint, we provide the rigorous, trustworthy foundation required to force the next generation of AI systems to truly see the data, achieving true multimodal reasoning.
- Abstract(参考訳): VLM(Vision-Language Models)の急速な普及は、統合マルチモーダル知識発見の夜明けとして広く祝われているが、その基盤は危険で疑わしい公理に基づいており、現在のVLMはマルチモーダルデータを忠実に合成している。
彼らはそうではないと私たちは主張する。
代わりに、信頼性の深刻な危機は、支配的なビジョンエンコーダ-プロジェクタ-LLMパラダイムの根底にある。
ビジュアルインプットから基礎知識を抽出する代わりに、最先端のモデルはしばしば機能的盲点を示す。
本研究では,データアブレーションや新しいデータセット生成に依存した従来のマルチモーダル評価手法に挑戦する。
本稿では,情報理論の急進的脱却(Modality Translation Protocol)を提案する。
セマンティック・サフィシビリティ・基準(SSC)で終わる3つの新しいメトリクス – Toll(ToS)、Curse(CoS)、Fallacy(FoS) – を分類するよりも、セマンティック・ペイロードを翻訳することで、セマンティック・サフィシビリティ・基準(SSC)に到達します。
さらに,マルチモーダルスケーリングの挑発的多様化法を提唱し,基礎となる言語エンジンが前例のない推論能力にスケールするにつれて,視覚的知識ボトルネックの数学的ペナルティがパラドックス的に増加すると仮定した。
我々は,KDDコミュニティに対して,「マルチモーダル・ゲイン」という幻想的な追求を放棄するよう呼びかける。
SSCをパッシブな診断制約からアクティブなアーキテクチャの青写真へと高めることで、私たちは、次世代のAIシステムを真にデータを見るように強制するために必要な厳格で信頼できる基盤を提供し、真のマルチモーダルな推論を実現します。
関連論文リスト
- Perception-Aware Multimodal Spatial Reasoning from Monocular Images [57.42071289037214]
単眼画像からの空間的推論は 自律運転には不可欠です
現在のヴィジュアルランゲージモデル(VLM)は、微粒な幾何学的知覚に苦慮している。
本稿では,VLMを明示的な対象中心の接地能力を持つ知覚認識型マルチモーダル推論フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-07T02:05:12Z) - What if Agents Could Imagine? Reinforcing Open-Vocabulary HOI Comprehension through Generation [35.62323084880028]
我々は,認知的推論と生成的想像とを調和させて,堅牢な視覚的理解を実現するエージェントフレームワークであるtextbfImagineAgentを提案する。
提案手法は,検出された実体と候補行動との間の可視的関係を明示的にモデル化する認知マップを革新的に構築する。
検索強化、画像トリミング、拡散モデルなどのツールを動的に起動し、ドメイン固有の知識を集め、視覚的証拠を充実させる。
論文 参考訳(メタデータ) (2026-02-12T02:51:59Z) - PENDULUM: A Benchmark for Assessing Sycophancy in Multimodal Large Language Models [43.767942065379366]
サイコファシー(英: Sycophancy)は、AIモデルが実際の正確さや視覚的証拠の矛盾を犠牲にしてユーザー入力に同意する傾向である。
約2000組の視覚質問応答対からなる総合評価ベンチマーク「textitPENDULUM」を導入する。
本研究は, モデルロバスト性およびサイコファンおよび幻覚行動に対する感受性の顕著な変動を観察する。
論文 参考訳(メタデータ) (2025-12-22T12:49:12Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Thinking Before Looking: Improving Multimodal LLM Reasoning via Mitigating Visual Hallucination [13.706325901731665]
MLLM(Multimodal large language model)は、視覚的・言語的モダリティの統合を推進している。
思考の連鎖(CoT)推論のような現在のアプローチは、大規模言語モデル(LLM)の認知能力を増強している。
しかし、MLLMへの適応は、相互モダリティ理解における幻覚のリスクの増大によって妨げられている。
論文 参考訳(メタデータ) (2024-11-15T21:01:37Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。