論文の概要: Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?
- arxiv url: http://arxiv.org/abs/2505.12766v1
- Date: Mon, 19 May 2025 06:45:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.450266
- Title: Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues?
- Title(参考訳): 推論-OCR:大規模マルチモーダルモデルでは、OCRキューから複雑な論理推論問題を解けるか?
- Authors: Haibin He, Maoyuan Ye, Jing Zhang, Xiantao Cai, Juhua Liu, Bo Du, Dacheng Tao,
- Abstract要約: Reasoning-OCRは、リッチビジュアルテキストから抽出できるキューに基づいて複雑な推論問題を解決するためにLMMに挑戦する。
我々の評価は、異なる理由付けの課題において、プロプライエタリでオープンソースのLMMにいくつかの洞察を与えます。
- 参考スコア(独自算出の注目度): 73.35232225256968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Multimodal Models (LMMs) have become increasingly versatile, accompanied by impressive Optical Character Recognition (OCR) related capabilities. Existing OCR-related benchmarks emphasize evaluating LMMs' abilities of relatively simple visual question answering, visual-text parsing, etc. However, the extent to which LMMs can deal with complex logical reasoning problems based on OCR cues is relatively unexplored. To this end, we introduce the Reasoning-OCR benchmark, which challenges LMMs to solve complex reasoning problems based on the cues that can be extracted from rich visual-text. Reasoning-OCR covers six visual scenarios and encompasses 150 meticulously designed questions categorized into six reasoning challenges. Additionally, Reasoning-OCR minimizes the impact of field-specialized knowledge. Our evaluation offers some insights for proprietary and open-source LMMs in different reasoning challenges, underscoring the urgent to improve the reasoning performance. We hope Reasoning-OCR can inspire and facilitate future research on enhancing complex reasoning ability based on OCR cues. Reasoning-OCR is publicly available at https://github.com/Hxyz-123/ReasoningOCR.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、光学的文字認識(OCR)関連機能とともに、ますます多用途化されつつある。
既存のOCR関連ベンチマークでは、比較的単純な視覚的質問応答や視覚的テキスト解析などのLMMの能力を評価することが強調されている。
しかし、LMMがOCRに基づく複雑な論理的推論問題に対処できる範囲は、比較的未解明である。
この目的のために、リッチなビジュアルテキストから抽出できるキューに基づいて、複雑な推論問題を解決するためにLMMに挑戦するReasoning-OCRベンチマークを導入する。
Reasoning-OCRは6つの視覚シナリオをカバーし、150の厳密に設計された質問を6つの推論課題に分類する。
さらに、Reasoning-OCRはフィールド特殊化知識の影響を最小限に抑える。
我々の評価は、様々な推論課題において、プロプライエタリでオープンソースのLMMにいくつかの洞察を与え、推論性能を改善する緊急性を強調している。
我々は,OCRに基づく複雑な推論能力の向上に向けた今後の研究を刺激し,促進することを願っている。
Reasoning-OCRはhttps://github.com/Hxyz-123/ReasoningOCRで公開されている。
関連論文リスト
- Improving MLLM's Document Image Machine Translation via Synchronously Self-reviewing Its OCR Proficiency [31.095908827004695]
MLLM(Multimodal Large Language Models)は,文書画像タスクにおいて高い性能を示す。
彼らはDocument Image Machine Translation (DIMT)と闘っている。
我々は,「バイリンガル認知アドバンテージ」の概念に触発されて,SSR(Synchronously Self-Reviewing)という新たな微調整パラダイムを導入した。
論文 参考訳(メタデータ) (2025-07-11T05:02:06Z) - OCR-Reasoning Benchmark: Unveiling the True Capabilities of MLLMs in Complex Text-Rich Image Reasoning [39.141660558608265]
OCR-Reasoningは、テキストリッチな画像推論タスクでマルチモーダル大言語モデルを評価するために設計された包括的なベンチマークである。
このベンチマークは、6つのコア推論能力と、テキストリッチなビジュアルシナリオにおける18の実践的推論タスクにまたがる1069の人手による例で構成されている。
注釈付き推論プロセスと最終回答により、OCR-Reasoningはモデルによって生成された最終回答だけでなく、それらの推論プロセスも評価する。
論文 参考訳(メタデータ) (2025-05-22T15:25:14Z) - LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? [80.4577892387028]
テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを紹介する。
我々は、テキストコーパスをマルチモーダルサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。
我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
論文 参考訳(メタデータ) (2025-05-18T08:39:37Z) - Context-Independent OCR with Multimodal LLMs: Effects of Image Resolution and Visual Complexity [1.8130068086063336]
マルチモーダル大規模言語モデル (LLM) は様々な産業分野において大きな注目を集めている。
本研究では,多様な視覚的複雑度を持つ単一文字画像を用いた文脈非依存のOCRタスクについて検討する。
以上の結果から, マルチモーダルLLMは従来のOCR法と約300ppiで一致するが, 性能は150ppi以下であった。
論文 参考訳(メタデータ) (2025-03-31T02:09:19Z) - MultiOCR-QA: Dataset for Evaluating Robustness of LLMs in Question Answering on Multilingual OCR Texts [17.20084584886653]
我々は,多言語QAデータセットであるMultiOCR-QAを導入し,OCRノイズがQAシステムの性能に与える影響を分析する。
MultiOCR-QAデータセットは、英語、フランス語、ドイツ語の3言語をカバーする60万の質問応答ペアで構成されている。
以上の結果から,QA システムは OCR による誤りの頻度が高く,ノイズの多い OCR テキストでの性能劣化を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-24T02:16:37Z) - MME-CoT: Benchmarking Chain-of-Thought in Large Multimodal Models for Reasoning Quality, Robustness, and Efficiency [63.23935582919081]
CoT (Chain-of-Thought) は,Large Language Models (LLMs) の推論能力を大幅に向上させた。
我々は,LMMのCoT推論性能を評価する特別ベンチマークであるMME-CoTを紹介する。
我々は最先端のLMMの詳細な分析を行い、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-02-13T18:59:46Z) - ZebraLogic: On the Scaling Limits of LLMs for Logical Reasoning [92.76959707441954]
我々はLLM推論性能を評価するための総合的な評価フレームワークであるZebraLogicを紹介した。
ZebraLogicは、制御可能で定量化可能な複雑さを持つパズルの生成を可能にする。
その結果,複雑性が増大するにつれて,精度が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T06:44:49Z) - Ocean-OCR: Towards General OCR Application via a Vision-Language Model [6.70908296002235]
textbfOcean-OCRは3B MLLMで、様々なOCRシナリオにおける最先端性能と、一般的なタスクにおける同等の理解能力を持つ。
我々は、オープンソースのOCRベンチマークや様々なOCRシナリオにおける包括的な実験を通じて、Ocean-OCRの優位性を実証する。
論文 参考訳(メタデータ) (2025-01-26T15:20:39Z) - CC-OCR: A Comprehensive and Challenging OCR Benchmark for Evaluating Large Multimodal Models in Literacy [50.78228433498211]
CC-OCRは、マルチシーンテキスト読取、多言語テキスト読取、文書解析、キー情報抽出の4つのOCR中心のトラックで構成されている。
39のサブセットと7,058のフルアノテートされたイメージが含まれており、そのうち41%が実際のアプリケーションからソースされ、初めてリリースされた。
我々は9つの顕著なLMMを評価し、これらのモデルの長所と短所、特にテキストの接地、多目的化、繰り返しの幻覚について明らかにした。
論文 参考訳(メタデータ) (2024-12-03T07:03:25Z) - ConMe: Rethinking Evaluation of Compositional Reasoning for Modern VLMs [95.15814662348245]
構成推論(CR)は属性、関係、単語の順序の重要さを把握する。
近年の視覚言語モデル (VLM) は、そのような推論タスクにおいて顕著な習熟性を示している。
論文 参考訳(メタデータ) (2024-06-12T12:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。