論文の概要: ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19091v1
- Date: Sun, 25 May 2025 11:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.896806
- Title: ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models
- Title(参考訳): ReadBench: 視覚言語モデルの高密度テキスト視覚読解能力の測定
- Authors: Benjamin Clavié, Florian Brand,
- Abstract要約: 本稿では,Large Vision-Language Models(VLM)の読解能力を評価するベンチマークであるReadBenchを紹介する。
ReadBenchは、既存のテキストのみのベンチマークからテキストのイメージにコンテキストを変換し、テキストのプロンプトや質問をそのまま保持する。
短いテキストイメージの入力では最小限のパフォーマンス劣化がみられ、長い複数ページのコンテキストでは性能が大幅に低下する。
- 参考スコア(独自算出の注目度): 0.4453962606945739
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (VLMs), have greatly enhanced their capability to jointly process text and images. However, despite extensive benchmarks evaluating visual comprehension (e.g., diagrams, color schemes, OCR tasks...), there is limited assessment of VLMs' ability to read and reason about text-rich images effectively. To fill this gap, we introduce ReadBench, a multimodal benchmark specifically designed to evaluate the reading comprehension capabilities of VLMs. ReadBench transposes contexts from established text-only benchmarks into images of text while keeping textual prompts and questions intact. Evaluating leading VLMs with ReadBench, we find minimal-but-present performance degradation on short, text-image inputs, while performance sharply declines for longer, multi-page contexts. Our experiments further reveal that text resolution has negligible effects on multimodal performance. These findings highlight needed improvements in VLMs, particularly their reasoning over visually presented extensive textual content, a capability critical for practical applications. ReadBench is available at https://github.com/answerdotai/ReadBench .
- Abstract(参考訳): 近年のVLM(Large Vision-Language Models)は,テキストと画像の共同処理能力を大幅に強化している。
しかし、視覚的理解(図、カラースキーム、OCRタスクなど)を評価する広範囲なベンチマークにもかかわらず、VLMがテキストリッチなイメージを効果的に読み書きできる能力は限定的に評価されている。
このギャップを埋めるために,VLMの読解能力を評価するためのマルチモーダルベンチマークであるReadBenchを紹介する。
ReadBenchは、既存のテキストのみのベンチマークからテキストのイメージにコンテキストを変換し、テキストのプロンプトや質問をそのまま保持する。
ReadBenchでトップのVLMを評価すると、短いテキストイメージの入力では最小限だが、複数ページのコンテキストではパフォーマンスが大幅に低下する。
さらに本実験により,テキスト解像度がマルチモーダル性能に悪影響を及ぼすことが明らかとなった。
これらの知見は、特に視覚的に提示された広範囲なテキストコンテンツに対する推論において、VLMの必要な改善を強調している。
ReadBenchはhttps://github.com/answerdotai/ReadBenchで入手できる。
関連論文リスト
- MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark [46.46727031818962]
マルチモーダル大規模言語モデル(MLLM)の評価において,テキストリッチな視覚シーンの理解が焦点となっている。
テキストリッチな視覚シーンに対するマルチモーダル・ベンチマークを導入し、視覚推論とコンテンツ作成タスク(MCTBench)を通してMLLMの認知能力を評価する。
MCTBenchは、MLLMの認知能力と知覚能力の両方を一貫した比較を保証するために、いくつかの知覚タスクを組み込んでいる。
論文 参考訳(メタデータ) (2024-10-15T12:13:42Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。