論文の概要: ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.19091v1
- Date: Sun, 25 May 2025 11:02:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.896806
- Title: ReadBench: Measuring the Dense Text Visual Reading Ability of Vision-Language Models
- Title(参考訳): ReadBench: 視覚言語モデルの高密度テキスト視覚読解能力の測定
- Authors: Benjamin Clavié, Florian Brand,
- Abstract要約: 本稿では,Large Vision-Language Models(VLM)の読解能力を評価するベンチマークであるReadBenchを紹介する。
ReadBenchは、既存のテキストのみのベンチマークからテキストのイメージにコンテキストを変換し、テキストのプロンプトや質問をそのまま保持する。
短いテキストイメージの入力では最小限のパフォーマンス劣化がみられ、長い複数ページのコンテキストでは性能が大幅に低下する。
- 参考スコア(独自算出の注目度): 0.4453962606945739
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in Large Vision-Language Models (VLMs), have greatly enhanced their capability to jointly process text and images. However, despite extensive benchmarks evaluating visual comprehension (e.g., diagrams, color schemes, OCR tasks...), there is limited assessment of VLMs' ability to read and reason about text-rich images effectively. To fill this gap, we introduce ReadBench, a multimodal benchmark specifically designed to evaluate the reading comprehension capabilities of VLMs. ReadBench transposes contexts from established text-only benchmarks into images of text while keeping textual prompts and questions intact. Evaluating leading VLMs with ReadBench, we find minimal-but-present performance degradation on short, text-image inputs, while performance sharply declines for longer, multi-page contexts. Our experiments further reveal that text resolution has negligible effects on multimodal performance. These findings highlight needed improvements in VLMs, particularly their reasoning over visually presented extensive textual content, a capability critical for practical applications. ReadBench is available at https://github.com/answerdotai/ReadBench .
- Abstract(参考訳): 近年のVLM(Large Vision-Language Models)は,テキストと画像の共同処理能力を大幅に強化している。
しかし、視覚的理解(図、カラースキーム、OCRタスクなど)を評価する広範囲なベンチマークにもかかわらず、VLMがテキストリッチなイメージを効果的に読み書きできる能力は限定的に評価されている。
このギャップを埋めるために,VLMの読解能力を評価するためのマルチモーダルベンチマークであるReadBenchを紹介する。
ReadBenchは、既存のテキストのみのベンチマークからテキストのイメージにコンテキストを変換し、テキストのプロンプトや質問をそのまま保持する。
ReadBenchでトップのVLMを評価すると、短いテキストイメージの入力では最小限だが、複数ページのコンテキストではパフォーマンスが大幅に低下する。
さらに本実験により,テキスト解像度がマルチモーダル性能に悪影響を及ぼすことが明らかとなった。
これらの知見は、特に視覚的に提示された広範囲なテキストコンテンツに対する推論において、VLMの必要な改善を強調している。
ReadBenchはhttps://github.com/answerdotai/ReadBenchで入手できる。
関連論文リスト
- Visual Text Processing: A Comprehensive Review and Unified Evaluation [99.57846940547171]
視覚テキスト処理における最近の進歩を包括的・多視点的に分析する。
本研究の目的は,視覚テキスト処理のダイナミックな分野における今後の探索と革新を促進する基礎資源として,本研究を確立することである。
論文 参考訳(メタデータ) (2025-04-30T14:19:29Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - MCTBench: Multimodal Cognition towards Text-Rich Visual Scenes Benchmark [46.46727031818962]
マルチモーダル大規模言語モデル(MLLM)の評価において,テキストリッチな視覚シーンの理解が焦点となっている。
テキストリッチな視覚シーンに対するマルチモーダル・ベンチマークを導入し、視覚推論とコンテンツ作成タスク(MCTBench)を通してMLLMの認知能力を評価する。
MCTBenchは、MLLMの認知能力と知覚能力の両方を一貫した比較を保証するために、いくつかの知覚タスクを組み込んでいる。
論文 参考訳(メタデータ) (2024-10-15T12:13:42Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - SEED-Bench-2-Plus: Benchmarking Multimodal Large Language Models with Text-Rich Visual Comprehension [62.40482764691584]
MLLMのテキストに富んだ視覚的理解を評価するためのベンチマークSEED-Bench-2-Plusを紹介する。
私たちのベンチマークでは、チャート、マップ、ウェブの3つのカテゴリにまたがる、正確な人間のアノテーションによる2.3Kの多重選択質問で構成されています。
我々は,34の著名なMLLMを包含する徹底的な評価を行い,テキストリッチ視覚理解におけるMLLMの現在の限界を強調した。
論文 参考訳(メタデータ) (2024-04-25T17:39:35Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - BLIVA: A Simple Multimodal LLM for Better Handling of Text-Rich Visual
Questions [41.825273034537204]
視覚言語モデル(VLM)は、テキストで注入された画像を正確に解釈することはできない。
本稿では,Visual Assistantを用いたInstructBLIPの拡張版であるBLIVAを紹介する。
我々のモデルは、テキストリッチなVQAベンチマークの処理や、一般的な(特にテキストリッチではない)VQAベンチマークの実行において、パフォーマンスを大幅に向上させる。
論文 参考訳(メタデータ) (2023-08-19T07:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。