論文の概要: LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?
- arxiv url: http://arxiv.org/abs/2505.12307v1
- Date: Sun, 18 May 2025 08:39:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.155595
- Title: LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images?
- Title(参考訳): LogicOCR:テキストリッチ画像の論理的推論で大規模なマルチモーダルモデルExcelは可能か?
- Authors: Maoyuan Ye, Jing Zhang, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを紹介する。
我々は、テキストコーパスをマルチモーダルサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。
我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
- 参考スコア(独自算出の注目度): 80.4577892387028
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in Large Multimodal Models (LMMs) have significantly improved their reasoning and Optical Character Recognition (OCR) capabilities. However, their performance on complex logical reasoning tasks involving text-rich images remains underexplored. To bridge this gap, we introduce LogicOCR, a benchmark comprising 1,100 multiple-choice questions designed to evaluate LMMs' logical reasoning abilities on text-rich images, while minimizing reliance on domain-specific knowledge (e.g., mathematics). We construct LogicOCR by curating a text corpus from the Chinese National Civil Servant Examination and develop a scalable, automated pipeline to convert it into multimodal samples. First, we design prompt templates to steer GPT-Image-1 to generate images with diverse backgrounds, interleaved text-illustration layouts, and varied fonts, ensuring contextual relevance and visual realism. Then, the generated images are manually verified, with low-quality examples discarded. We evaluate a range of representative open-source and proprietary LMMs under both Chain-of-Thought (CoT) and direct-answer settings. Our multi-dimensional analysis reveals key insights, such as the impact of test-time scaling, input modality differences, and sensitivity to visual-text orientation. Notably, LMMs still lag in multimodal reasoning compared to text-only inputs, indicating that they have not fully bridged visual reading with reasoning. We hope LogicOCR will serve as a valuable resource for advancing multimodal reasoning research. The dataset is available at https://github.com/MiliLab/LogicOCR.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)の最近の進歩は、その推論と光学文字認識(OCR)能力を大幅に改善している。
しかし、テキストリッチな画像を含む複雑な論理的推論タスクにおけるそれらの性能は、まだ未定である。
このギャップを埋めるために,テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを導入し,ドメイン固有の知識(数学など)への依存を最小限に抑える。
我々は,中国国家公務員試験のテキストコーパスをキュレートしてLogicOCRを構築し,多モードサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。
まず,GPT-Image-1 にテンプレートを設計し,背景の多様さ,インターリーブされたテキストイリュージョンレイアウト,フォントの多様さなどの画像を生成し,文脈的関連性や視覚的リアリズムの確保を図る。
そして、生成された画像は手動で検証され、低品質の例は破棄される。
我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
私たちの多次元分析では、テストタイムスケーリングの影響、入力モードの違い、視覚テキストの向きに対する感度など、重要な洞察が示されています。
特に、LMMはテキストのみの入力に比べてマルチモーダル推論が遅れており、推論を伴う視覚的読み出しを完全にブリッジしていないことを示している。
LogicOCRがマルチモーダル推論研究の進展に有用なリソースになることを願っている。
データセットはhttps://github.com/MiliLab/LogicOCRで公開されている。
関連論文リスト
- Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Boosting Text-To-Image Generation via Multilingual Prompting in Large Multimodal Models [43.16111789538798]
大規模マルチモーダルモデル(LMM)の多言語機能を活用した並列多言語プロンプトを構築する。
3つのベンチマークにおける2つのLMM実験により,提案手法であるPMT2Iが,一般に優れた性能,構成,きめ細かな評価を達成できることが判明した。
論文 参考訳(メタデータ) (2025-01-13T06:41:23Z) - Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
Leopardは、複数のテキストリッチイメージを含む視覚言語タスクを扱うビジョン言語モデルである。
まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。
第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを開発した。
論文 参考訳(メタデータ) (2024-10-02T16:55:01Z) - MMR: Evaluating Reading Ability of Large Multimodal Models [52.953316772123586]
大規模マルチモーダルモデル (LMM) は、テキストリッチな画像を含む様々な種類の画像を理解する能力を示す。
現在のベンチマークでは、異なるモデルのパフォーマンスを正確に反映することができない。
テキストリッチ画像理解のためのLMMを評価するために,11種類のタスクでMulti-Modal Reading (MMR)ベンチマークを提案する。
論文 参考訳(メタデータ) (2024-08-26T19:26:50Z) - MultiQG-TI: Towards Question Generation from Multi-modal Sources [4.913248451323163]
画像やテキストを含むマルチモーダルソースからの質問自動生成の課題について検討する。
我々は,テキストのみの質問生成器で視覚入力を処理できるMultiQG-TIという,新しい問題の簡単な解を提案する。
MultiQG-TIは、訓練可能なパラメータが100倍も少ないにもかかわらず、数発のプロンプトでChatGPTを著しく上回っていることを実証した。
論文 参考訳(メタデータ) (2023-07-07T08:14:15Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。