Fugu-MT 論文翻訳(概要): olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

論文の概要: olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models

arxiv url: http://arxiv.org/abs/2502.18443v1
Date: Tue, 25 Feb 2025 18:38:38 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 17:42:46.203802
Title: olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models
Title（参考訳）: olmOCR:視覚言語モデルを用いたPDFにおける3つのトークンのロック解除
Authors: Jake Poznanski, Jon Borchardt, Jason Dunkelberger, Regan Huff, Daniel Lin, Aman Rangapur, Christopher Wilhelm, Kyle Lo, Luca Soldaini,
Abstract要約: olmOCRはオープンソースのPythonツールキットで、PDFをクリーンで線形化された平文に自然な読み順で処理する。我々のツールキットは、100,000以上のクロールされたPDFから26万ページのサンプルに基づいて訓練された微調整された7B視覚言語モデル(VLM)を実行する。 olmOCRは大規模バッチ処理に最適化されており、様々なハードウェア設定に柔軟にスケールでき、100万のPDFページをわずか190ドルで変換できる。
参考スコア（独自算出の注目度）: 17.018144344175973
License: http://creativecommons.org/licenses/by/4.0/
Abstract: PDF documents have the potential to provide trillions of novel, high-quality tokens for training language models. However, these documents come in a diversity of types with differing formats and visual layouts that pose a challenge when attempting to extract and faithfully represent the underlying content for language model use. We present olmOCR, an open-source Python toolkit for processing PDFs into clean, linearized plain text in natural reading order while preserving structured content like sections, tables, lists, equations, and more. Our toolkit runs a fine-tuned 7B vision language model (VLM) trained on a sample of 260,000 pages from over 100,000 crawled PDFs with diverse properties, including graphics, handwritten text and poor quality scans. olmOCR is optimized for large-scale batch processing, able to scale flexibly to different hardware setups and convert a million PDF pages for only $190 USD. We release all components of olmOCR including VLM weights, data and training code, as well as inference code built on serving frameworks including vLLM and SGLang.
Abstract（参考訳）: PDF文書は、言語モデルのトレーニングのために、数兆もの新しい高品質なトークンを提供する可能性がある。しかし、これらのドキュメントは、異なるフォーマットと視覚的なレイアウトを持つさまざまなタイプのもので、言語モデル使用の基盤となるコンテンツを抽出し、忠実に表現しようとするときに、課題となる。我々は,オープンソースPythonツールキットolmOCRを,セクション,テーブル,リスト,方程式などの構造化されたコンテンツを保存しながら,クリーンで線形化されたプレーンテキストに自然な読み順で処理する。我々のツールキットは、グラフィック、手書きテキスト、品質の悪いスキャンを含む多種多様な特性を持つ10000以上のクロールされたPDFから26万ページのサンプルに基づいて訓練された微調整された7B視覚言語モデル(VLM)を実行する。 olmOCRは大規模バッチ処理に最適化されており、様々なハードウェア設定に柔軟にスケールでき、100万のPDFページをわずか190ドルで変換できる。 VLMウェイトやデータ,トレーニングコード,vLLMやSGLangといったフレームワーク上で動作する推論コードなど,olmOCRのすべてのコンポーネントをリリースしています。

関連論文リスト

LightOnOCR: A 1B End-to-End Multilingual Vision-Language Model for State-of-the-Art OCR [0.29410438275861583]
我々は,多言語視覚言語モデルである textbfLightOnOCR-2-1B を提案する。大規模で高品質な蒸留混合物でスキャン、フランス語文書、科学PDFを強くカバーし、LightOnOCR-2はOlmOCR-Benchの最先端の結果を得る。私たちはApache 2.0でモデルチェックポイントをリリースし、データセットと textbfLightOnOCR-bbox-bench の評価をそれぞれのライセンスで公開しています。
論文参考訳（メタデータ） (2026-01-20T18:58:32Z)
MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。 2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文参考訳（メタデータ） (2025-11-13T15:12:17Z)
olmOCR 2: Unit Test Rewards for Document OCR [29.547676834557105]
olmOCR 2は、PDFのようなデジタル化された印刷文書を、クリーンで自然に順序付けられたプレーンテキストに変換する強力なOCRシステム群の最新版です。 olmOCR 2は、強化学習を用いて訓練された7B視覚言語モデル(VLM)であるolmOCR-2-7B-1025で駆動される。これらのテストケースに対するRLトレーニングは、我々の英語OCRベンチマークであるolmOCR-Benchにおける最先端のパフォーマンスをもたらすことを示す。
論文参考訳（メタデータ） (2025-10-22T17:53:02Z)
MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。 SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文参考訳（メタデータ） (2025-06-05T16:34:57Z)
PsOCR: Benchmarking Large Multimodal Models for Optical Character Recognition in Low-resource Pashto Language [2.1540520105079697]
我々はPashto OCRデータセット(PsOCR)を開発し、単語、行、文書レベルで境界ボックスを付加した100万枚の画像からなる。 PsOCRは1000種類のフォントファミリ、色、画像サイズ、レイアウトをカバーしている。 7つのオープンソースモデルを含む複数のLMMの性能を評価するため、10K画像のベンチマークサブセットが選択された。 Geminiはすべてのモデルの中で最高のパフォーマンスを達成しているが、オープンソースモデルではQwen-7Bが際立っている。
論文参考訳（メタデータ） (2025-05-15T07:58:38Z)
ReaderLM-v2: Small Language Model for HTML to Markdown and JSON [7.9969849952515775]
本稿では、効率的なWebコンテンツ抽出のために設計された15億個のパラメータ言語モデルであるReaderLM-v2を提案する。私たちのモデルは、ドキュメントを512Kまでの乱雑なHTMLを、高い精度でクリーンまたはマークダウンフォーマットに処理します。
論文参考訳（メタデータ） (2025-03-03T03:57:04Z)
PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文参考訳（メタデータ） (2024-10-08T12:17:42Z)
AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文参考訳（メタデータ） (2024-08-30T03:16:49Z)
OmniCorpus: A Unified Multimodal Corpus of 10 Billion-Level Images Interleaved with Text [112.60163342249682]
我々は100億規模の画像テキストインターリーブデータセットであるOmniCorpusを紹介する。私たちのデータセットは、優れたデータ品質を維持しながら、15倍のスケールを持っています。これが将来のマルチモーダルモデル研究に確かなデータ基盤を提供することを期待しています。
論文参考訳（メタデータ） (2024-06-12T17:01:04Z)
TextMonkey: An OCR-Free Large Multimodal Model for Understanding Document [60.01330653769726]
テキスト中心タスクに適した大規模マルチモーダルモデル(LMM)であるTextMonkeyを提案する。ゼロ初期化によるシフトウィンドウアテンションの導入により、高い入力解像度でクロスウィンドウ接続を実現する。テキストスポッティングとグラウンド化を包含する能力を拡張し、位置情報を応答に組み込むことで、解釈可能性を高める。
論文参考訳（メタデータ） (2024-03-07T13:16:24Z)
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。 EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文参考訳（メタデータ） (2023-10-16T04:20:16Z)
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。 MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文参考訳（メタデータ） (2023-10-08T11:33:09Z)
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文参考訳（メタデータ） (2023-07-04T11:28:07Z)
CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data [2.7843134136364265]
本稿では,Common Crawl を用いて,インターネット全体から大規模で多言語なPDFファイルのコーパスを作成するための効率的なパイプラインを提案する。また、CCpdfコーパスをPDFファイルの形式やインデックスで共有し、それらをダウンロードするためのスクリプトを作成し、言語モデルの事前学習に有用なコレクションを生成する。
論文参考訳（メタデータ） (2023-04-28T16:12:18Z)
Language Models Enable Simple Systems for Generating Structured Views of Heterogeneous Data Lakes [54.13559879916708]
EVAPORATEは大規模言語モデル(LLM)を利用したプロトタイプシステムである。コード合成は安価だが、各文書をLSMで直接処理するよりもはるかに正確ではない。直接抽出よりも優れた品質を実現する拡張コード実装EVAPORATE-CODE+を提案する。
論文参考訳（メタデータ） (2023-04-19T06:00:26Z)
Robust PDF Document Conversion Using Recurrent Neural Networks [0.0]
本稿では,リカレントニューラルネットワークを用いたpdfの文書構造復元手法を提案する。ニューラルネットワークへの入力としてPDF印刷コマンドのシーケンスをどのように使用できるかを示す。 17の異なる構造ラベルで97%の重み付き平均F1スコアを得るモデルを実装します。
論文参考訳（メタデータ） (2021-02-18T14:39:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。