論文の概要: Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
- arxiv url: http://arxiv.org/abs/2512.08923v1
- Date: Tue, 09 Dec 2025 18:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:08.107264
- Title: Same Content, Different Answers: Cross-Modal Inconsistency in MLLMs
- Title(参考訳): 同じ内容, 異なる回答:MLLMにおける相互整合性
- Authors: Angela van Sprang, Laurens Samson, Ana Lucic, Erman Acar, Sennay Ghebreab, Yuki M. Asano,
- Abstract要約: 大規模言語モデル(MLLM)における相互整合性を評価するための2つの新しいベンチマークを導入する。
本ベンチマークでは3つのモード(画像,テキスト,混合)で同じ意味情報を持つサンプルを含む。
- 参考スコア(独自算出の注目度): 32.58951235745983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce two new benchmarks REST and REST+(Render-Equivalence Stress Tests) to enable systematic evaluation of cross-modal inconsistency in multimodal large language models (MLLMs). MLLMs are trained to represent vision and language in the same embedding space, yet they cannot perform the same tasks in both modalities. Our benchmarks contain samples with the same semantic information in three modalities (image, text, mixed) and we show that state-of-the-art MLLMs cannot consistently reason over these different modalities. We evaluate 15 MLLMs and find that the degree of modality inconsistency varies substantially, even when accounting for problems with text recognition (OCR). Neither rendering text as image nor rendering an image as text solves the inconsistency. Even if OCR is correct, we find that visual characteristics (text colour and resolution, but not font) and the number of vision tokens have an impact on model performance. Finally, we find that our consistency score correlates with the modality gap between text and images, highlighting a mechanistic interpretation of cross-modal inconsistent MLLMs.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)における相互整合性の体系的評価を可能にするために,RESTとREST+(Render-Equivalence Stress Tests)の2つの新しいベンチマークを導入する。
MLLMは、同じ埋め込み空間における視覚と言語を表現するように訓練されているが、両方のモードで同じタスクを実行することはできない。
本ベンチマークでは3つのモード(画像,テキスト,混合)で同じ意味情報を持つサンプルを含む。
我々は15個のMLLMを評価し,テキスト認識(OCR)の問題を考慮しても,モダリティの不整合の程度は著しく変化することを示した。
テキストを画像としてレンダリングしたり、画像をテキストとしてレンダリングしても、矛盾は解決しない。
OCRが正しいとしても、視覚的特徴(テキスト色と解像度だがフォントではない)と視覚トークンの数はモデルの性能に影響を及ぼす。
最後に, 整合性スコアはテキストと画像間のモダリティギャップと相関し, クロスモーダル不整合MLLMの機械的解釈を明らかにする。
関連論文リスト
- FineGRAIN: Evaluating Failure Modes of Text-to-Image Models with Vision Language Model Judges [85.24983823102262]
本稿では,テキスト・トゥ・イメージ(T2I)モデルと視覚言語モデル(VLM)を評価するための構造化手法を提案する。
我々は,挑戦的プロンプトで条件付きT2Iモデルにより生成された画像において,VLMが27の特定の障害モードを識別できるかどうかを検証した。
以上の結果から,現在の測定値ではこれらの誤差を捉えるには不十分であることが示唆された。
論文 参考訳(メタデータ) (2025-12-01T19:46:03Z) - Visual Semantic Description Generation with MLLMs for Image-Text Matching [7.246705430021142]
本稿では,マルチモーダル大言語モデル(MLLM)を視覚的意味論として活用することにより,モダリティギャップを橋渡しする新しいフレームワークを提案する。
提案手法は,(1)視覚特徴とVSDを融合して画像表現の言語表現性を高めることによるインスタンスレベルのアライメント,(2)カテゴリレベルのアライメントを確保するためのVSDクラスタリングによるプロトタイプレベルのアライメントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-07-11T13:38:01Z) - Same Task, Different Circuits: Disentangling Modality-Specific Mechanisms in VLMs [49.42020616826156]
VLM(Vision-Language Model)は、視覚的な入力に関する質問に答える能力を示すが、テキスト上で類似のタスクを実行する際の精度は高い。
異なるモードのテキスト回路を同定し,比較することにより,この精度ギャップについて検討する。
これを解決するために、後層の視覚データトークンの表現を以前のレイヤに戻します。
論文 参考訳(メタデータ) (2025-06-10T17:59:21Z) - MLLM-Guided VLM Fine-Tuning with Joint Inference for Zero-Shot Composed Image Retrieval [50.062817677022586]
Zero-Shot Image Retrieval (ZS-CIR) メソッドは通常、参照イメージを擬似テキストトークンに変換するアダプタを訓練する。
MLLM-Guided VLM Fine-Tuning with Joint Inference (MVFT-JI) を提案する。
論文 参考訳(メタデータ) (2025-05-26T08:56:59Z) - Enhancing Multimodal Sentiment Analysis for Missing Modality through Self-Distillation and Unified Modality Cross-Attention [45.31956918333587]
マルチモーダルな感情分析では、テキストデータの収集はビデオやオーディオよりも難しいことが多い。
我々は,テキストのモダリティがなくても,マルチモーダルな感情情報を統合する頑健なモデルを開発した。
論文 参考訳(メタデータ) (2024-10-19T07:59:41Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。