論文の概要: olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
- arxiv url: http://arxiv.org/abs/2502.18443v2
- Date: Wed, 18 Jun 2025 18:32:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 14:57:51.505135
- Title: olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
- Title(参考訳): olmOCR:視覚言語モデルを用いたPDFにおける3つのトークンのロック解除
- Authors: Jake Poznanski, Aman Rangapur, Jon Borchardt, Jason Dunkelberger, Regan Huff, Daniel Lin, Aman Rangapur, Christopher Wilhelm, Kyle Lo, Luca Soldaini,
- Abstract要約: olmOCRは、PDFをクリーンで線形化された平文に自然な読み順で処理するためのオープンソースのツールキットである。
olmOCRは大規模バッチ処理に最適化されており、異なるハードウェア設定に柔軟にスケールすることができる。
GPT-4o, Gemini Flash 2, Qwen-2.5-VLといったトップビジョン言語モデルでも, olmOCRの方が優れています。
- 参考スコア(独自算出の注目度): 16.470130668266055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: PDF documents have the potential to provide trillions of novel, high-quality tokens for training language models. However, these documents come in a diversity of types with differing formats and visual layouts that pose a challenge when attempting to extract and faithfully represent the underlying content for language model use. Traditional open source tools often produce lower quality extractions compared to vision language models (VLMs), but reliance on the best VLMs can be prohibitively costly (e.g., over $6,240 USD per million PDF pages for GPT-4o) or infeasible if the PDFs cannot be sent to proprietary APIs. We present olmOCR, an open-source toolkit for processing PDFs into clean, linearized plain text in natural reading order while preserving structured content like sections, tables, lists, equations, and more. Our toolkit runs a fine-tuned 7B vision language model (VLM) trained on olmOCR-mix-0225, a sample of 260,000 pages from over 100,000 crawled PDFs with diverse properties, including graphics, handwritten text and poor quality scans. olmOCR is optimized for large-scale batch processing, able to scale flexibly to different hardware setups and can convert a million PDF pages for only $176 USD. To aid comparison with existing systems, we also introduce olmOCR-Bench, a curated set of 1,400 PDFs capturing many content types that remain challenging even for the best tools and VLMs, including formulas, tables, tiny fonts, old scans, and more. We find olmOCR outperforms even top VLMs including GPT-4o, Gemini Flash 2 and Qwen-2.5-VL. We openly release all components of olmOCR: our fine-tuned VLM model, training code and data, an efficient inference pipeline that supports vLLM and SGLang backends, and benchmark olmOCR-Bench.
- Abstract(参考訳): PDF文書は、言語モデルのトレーニングのために、数兆もの新しい高品質なトークンを提供する可能性がある。
しかし、これらのドキュメントは、異なるフォーマットと視覚的なレイアウトを持つさまざまなタイプのもので、言語モデル使用の基盤となるコンテンツを抽出し、忠実に表現しようとするときに、課題となる。
従来のオープンソースツールは視覚言語モデル(VLM)に比べて低い品質の抽出を生成することが多いが、最高のVLMに依存している場合(例えば、GPT-4oのPDFページあたり6,240USドル以上)や、PDFをプロプライエタリなAPIに送信できない場合は不可能である。
本稿では,PDF をクリーンで線形化された平文に自然な読み順で処理するオープンソースツールキット olmOCR を紹介し,セクション,テーブル,リスト,方程式などの構造化されたコンテンツを保存する。
我々のツールキットは、olmOCR-mix-0225で訓練された微調整された7B視覚言語モデル(VLM)を実行する。
olmOCRは大規模バッチ処理に最適化されており、様々なハードウェア設定に柔軟にスケールでき、100万のPDFページをわずか176米ドルで変換できる。
既存のシステムとの比較を支援するために,OLmOCR-Benchも導入しています。これは,最高のツールやVLM,公式,テーブル,小さなフォント,古いスキャンなど,多くのコンテントタイプをキャプチャする,1400のPDFのキュレーションセットです。
GPT-4o, Gemini Flash 2, Qwen-2.5-VL などのトップ VLM においても olmOCR は優れていた。
私たちの微調整されたVLMモデル、コードとデータのトレーニング、vLLMとSGLangバックエンドをサポートする効率的な推論パイプライン、olmOCR-Benchのベンチマークです。
関連論文リスト
- PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。
私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。
これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文 参考訳(メタデータ) (2024-06-12T17:01:04Z) - TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。
ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。
テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文 参考訳(メタデータ) (2024-03-07T13:16:24Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - CCpdf: Building a High Quality Corpus for Visually Rich Documents from
Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。
また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文 参考訳(メタデータ) (2023-04-28T16:12:18Z) - Robust PDF Document Conversion Using Recurrent Neural Networks [0.0]
本稿では,リカレントニューラルネットワークを用いたpdfの文書構造復元手法を提案する。
ニューラルネットワークへの入力としてPDF印刷コマンドのシーケンスをどのように使用できるかを示す。
17の異なる構造ラベルで97%の重み付き平均F1スコアを得るモデルを実装します。
論文 参考訳(メタデータ) (2021-02-18T14:39:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。