論文の概要: OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets
- arxiv url: http://arxiv.org/abs/2603.02789v1
- Date: Tue, 03 Mar 2026 09:26:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.732488
- Title: OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets
- Title(参考訳): OCRか? : MLLM時代の文書情報抽出を現実の大規模データセットで再考する
- Authors: Jiyuan Shen, Peiyue Yuan, Atin Ghosh, Yifan Mai, Daniel Dahlmeier,
- Abstract要約: 本稿では,ビジネス文書情報抽出における各種MLLMの評価を行う。
画像のみの入力はOCR強化アプローチに匹敵する性能が得られるため,強力なMLLMにはOCRは必要ない可能性が示唆された。
- 参考スコア(独自算出の注目度): 2.781313927438882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) enhance the potential of natural language processing. However, their actual impact on document information extraction remains unclear. In particular, it is unclear whether an MLLM-only pipeline--while simpler--can truly match the performance of traditional OCR+MLLM setups. In this paper, we conduct a large-scale benchmarking study that evaluates various out-of-the-box MLLMs on business-document information extraction. To examine and explore failure modes, we propose an automated hierarchical error analysis framework that leverages large language models (LLMs) to diagnose error patterns systematically. Our findings suggest that OCR may not be necessary for powerful MLLMs, as image-only input can achieve comparable performance to OCR-enhanced approaches. Moreover, we demonstrate that carefully designed schema, exemplars, and instructions can further enhance MLLMs performance. We hope this work can offer practical guidance and valuable insight for advancing document information extraction.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、自然言語処理の可能性を高める。
しかし、実際の文書情報の抽出への影響は未定である。
特に、MLLMのみのパイプラインが、従来のOCR+MLLMセットアップと真に一致するかどうかは不明だ。
本稿では,ビジネス文書情報抽出における各種MLLMの評価を行う大規模ベンチマーク研究を行う。
そこで本研究では,大規模言語モデル(LLM)を利用した自動階層的エラー解析フレームワークを提案する。
画像のみの入力はOCR強化アプローチに匹敵する性能が得られるため,強力なMLLMにはOCRは必要ない可能性が示唆された。
さらに、慎重に設計されたスキーマ、例示、命令がMLLMの性能をさらに向上させることができることを示す。
本研究は,文書情報の抽出を進める上で,実践的なガイダンスと貴重な洞察を得られることを願っている。
関連論文リスト
- Generative Giants, Retrieval Weaklings: Why do Multimodal Large Language Models Fail at Multimodal Retrieval? [8.45007357012084]
MLLMが有効なレトリバーとして機能することを妨げるメカニズムについて検討する。
解析の結果,MLLMの表現空間はテキストセマンティクスによって圧倒的に支配されていることが明らかとなった。
MLLMの類似性計算に最も寄与する特定の特徴成分は、実際に、検索性能を積極的に劣化させるトラクタであることがわかった。
論文 参考訳(メタデータ) (2025-12-22T07:36:20Z) - URaG: Unified Retrieval and Generation in Multimodal LLMs for Efficient Long Document Understanding [55.45331924836242]
MLLM内での検索と生成を統一するフレームワークであるURaGについて述べる。
URaGは,計算オーバーヘッドを44~56%削減し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-13T17:54:09Z) - Beyond Isolated Dots: Benchmarking Structured Table Construction as Deep Knowledge Extraction [80.88654868264645]
Arranged and Organized extract Benchmarkは、断片化された文書を理解するための大規模言語モデルの能力を評価するために設計された。
AOEには3つの異なるドメインにまたがる11のタスクが含まれており、さまざまな入力クエリに適したコンテキスト固有のスキーマを生成するモデルが必要である。
結果は、最も先進的なモデルでさえ、かなり苦労したことを示している。
論文 参考訳(メタデータ) (2025-07-22T06:37:51Z) - How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。
メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文 参考訳(メタデータ) (2025-04-10T16:14:55Z) - Unleashing the Power of LLMs in Dense Retrieval with Query Likelihood Modeling [69.84963245729826]
本稿では,検索者の後続のコントラスト学習のためのバックボーンを強化するために,QLの補助的タスクを提案する。
注意ブロック(AB)と文書破壊(DC)の2つの重要なコンポーネントを組み込んだモデルを紹介します。
論文 参考訳(メタデータ) (2025-04-07T16:03:59Z) - LMDX: Language Model-based Document Information Extraction and Localization [23.656970495804963]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
視覚的に豊かな文書から情報を抽出する彼らの応用は、まだ成功していない。
このタスクにLLMを採用する主な障害は、LLM内にレイアウトエンコーディングがないことである。
論文 参考訳(メタデータ) (2023-09-19T22:32:56Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。
コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。
直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文 参考訳(メタデータ) (2023-04-19T06:00:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。