論文の概要: Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2603.09095v1
- Date: Tue, 10 Mar 2026 02:14:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.944597
- Title: Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs
- Title(参考訳): テキストがマルチモーダルLLMのピクセルになるときのモダリティギャップの理解とブリッジ
- Authors: Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan Bai,
- Abstract要約: MLLM(Multimodal large language model)は、画像として表示されるテキストを処理できるが、同じコンテンツがテキストトークンとして提供される場合よりも処理が悪くなることが多い。
我々は,この「モダリティギャップ」を7つのベンチマークを5つの入力モードで評価することにより,系統的に診断する。
- 参考スコア(独自算出の注目度): 23.958966900531692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) can process text presented as images, yet they often perform worse than when the same content is provided as textual tokens. We systematically diagnose this "modality gap" by evaluating seven MLLMs across seven benchmarks in five input modes, spanning both synthetically rendered text and realistic document images from arXiv PDFs to Wikipedia pages. We find that the modality gap is task- and data-dependent. For example, math tasks degrade by over 60 points on synthetic renderings, while natural document images often match or exceed text-mode performance. Rendering choices such as font and resolution are strong confounds, with font alone swinging accuracy by up to 47 percentage points. To understand this, we conduct a grounded-theory error analysis of over 4,000 examples, revealing that image mode selectively amplifies reading errors (calculation and formatting failures) while leaving knowledge and reasoning errors largely unchanged, and that some models exhibit a chain-of-thought reasoning collapse under visual input. Motivated by these findings, we propose a self-distillation method that trains the model on its own pure text reasoning traces paired with image inputs, raising image-mode accuracy on GSM8K from 30.71% to 92.72% and transferring to unseen benchmarks without catastrophic forgetting. Overall, our study provides a systematic understanding of the modality gap and suggests a practical path toward improving visual text understanding in multimodal language models.
- Abstract(参考訳): MLLM(Multimodal large language model)は、画像として表示されるテキストを処理できるが、同じコンテンツがテキストトークンとして提供される場合よりも処理が悪くなることが多い。
我々は,この「モダリティギャップ」を,7つのベンチマークにまたがる7つのMLLMを5つの入力モードで評価し,arXiv PDFからウィキペディアページまで,合成されたテキストと現実的な文書イメージの両方にまたがって系統的に診断した。
モダリティのギャップはタスクとデータに依存していることがわかった。
例えば、数学のタスクは合成レンダリングで60ポイント以上低下する一方、自然な文書画像はテキストモードのパフォーマンスと一致するか、超過することが多い。
フォントや解像度などのレンダリングの選択は強い欠点であり、フォント単独で最大47パーセントの精度でスイングする。
これを理解するために、4000以上のサンプルの基底理論誤差解析を行い、画像モードは、知識や推論エラーをほとんど変化しないまま、読み出しエラー(計算およびフォーマット失敗)を選択的に増幅し、視覚入力下での連鎖的推論崩壊を示すモデルもあることを示した。
そこで本研究では,GSM8Kにおける画像モードの精度を30.71%から92.72%に引き上げるとともに,大惨な忘れがちなベンチマークに変換する自己蒸留手法を提案する。
全体として,本研究はモダリティギャップの体系的な理解を提供し,マルチモーダル言語モデルにおける視覚的テキスト理解の改善に向けた実践的な道筋を示唆している。
関連論文リスト
- LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? [80.4577892387028]
テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを紹介する。
我々は、テキストコーパスをマルチモーダルサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。
我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
論文 参考訳(メタデータ) (2025-05-18T08:39:37Z) - Towards Visual Text Grounding of Multimodal Large Language Model [74.22413337117617]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。
具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。
提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文 参考訳(メタデータ) (2025-04-07T12:01:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - ASCIIEval: Benchmarking Models' Visual Perception in Text Strings via ASCII Art [83.95594027644124]
我々は,この問題を認識タスクとみなし,新しいベンチマークASCIIEvalを構築した。
精巧な分類木を持つ3Kサンプルに加えて、さらなる拡張のためのトレーニングセットもカバーしている。
テキスト入力が与えられた言語モデルは、ASCIIアートの概念に基づいて視覚的知覚能力を示す。
画像入力において,オープンソースのMLLMは,微細なテキスト認識と集合的視覚知覚のトレードオフに悩まされていることが明らかになった。
論文 参考訳(メタデータ) (2024-10-02T16:46:01Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - A Picture is Worth a Thousand Words: Principled Recaptioning Improves
Image Generation [9.552642210681489]
コーパスを特別な自動キャプションモデルで再現し、再カプセル化データセット上でテキスト・ツー・イメージモデルを訓練することにより、モデルがボード全体に大きなメリットをもたらすことを示す。
我々は、コーパスを緩和する様々な方法を分析し、この手法がRECAPと呼ばれ、どちらも列車の干渉の相違を低減し、例ごとにより多くの情報を提供するという証拠を提供する。
論文 参考訳(メタデータ) (2023-10-25T14:10:08Z) - Dynamic Visual Semantic Sub-Embeddings and Fast Re-Ranking [0.5242869847419834]
情報エントロピーを低減するために動的ビジュアルセマンティックサブエンベッドディングフレームワーク(DVSE)を提案する。
生成した候補埋め込みに様々な意味的変動を捉えるよう促すため,混合分布を構築した。
3つのベンチマークデータセット上の4つの画像特徴エンコーダと2つのテキスト特徴エンコーダを用いて,既存のセットベース手法と比較した。
論文 参考訳(メタデータ) (2023-09-15T04:39:11Z) - RoCOCO: Robustness Benchmark of MS-COCO to Stress-test Image-Text Matching Models [39.37985751472905]
我々はMS-COCOテストセットにテキストと画像の新しい変種を作成し、新しいデータを用いて最先端(SOTA)モデルを再評価する。
具体的には、単語を置換することでテキストの意味を変更し、視覚的なコンテキストを維持する視覚的に変化した画像を生成する。
提案したベンチマークによる評価の結果,多くのSOTAモデルの性能劣化が確認された。
論文 参考訳(メタデータ) (2023-04-21T03:45:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。