論文の概要: Layout-Aware Text Editing for Efficient Transformation of Academic PDFs to Markdown
- arxiv url: http://arxiv.org/abs/2512.18115v1
- Date: Fri, 19 Dec 2025 22:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.191457
- Title: Layout-Aware Text Editing for Efficient Transformation of Academic PDFs to Markdown
- Title(参考訳): 学術PDFのマークダウンへの効率的な変換のためのレイアウト対応テキスト編集
- Authors: Changxu Duan,
- Abstract要約: PDF形式で格納された学術文書は、平易なテキスト構造化マークアップ言語に変換することができる。
本稿では,PDFから編集済みテキストのキューを識別し,マークアップ言語を生成するハイブリッド編集生成モデルであるEditTransを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Academic documents stored in PDF format can be transformed into plain text structured markup languages to enhance accessibility and enable scalable digital library workflows. Markup languages allow for easier updates and customization, making academic content more adaptable and accessible to diverse usage, such as linguistic corpus compilation. Such documents, typically delivered in PDF format, contain complex elements including mathematical formulas, figures, headers, and tables, as well as densely layouted text. Existing end-to-end decoder transformer models can transform screenshots of documents into markup language. However, these models exhibit significant inefficiencies; their token-by-token decoding from scratch wastes a lot of inference steps in regenerating dense text that could be directly copied from PDF files. To solve this problem, we introduce EditTrans, a hybrid editing-generation model whose features allow identifying a queue of to-be-edited text from a PDF before starting to generate markup language. EditTrans contains a lightweight classifier fine-tuned from a Document Layout Analysis model on 162,127 pages of documents from arXiv. In our evaluations, EditTrans reduced the transformation latency up to 44.5% compared to end-to-end decoder transformer models, while maintaining transformation quality. Our code and reproducible dataset production scripts are open-sourced.
- Abstract(参考訳): PDF形式で格納された学術文書は、アクセシビリティを高め、スケーラブルなデジタルライブラリワークフローを実現するために、平易なテキスト構造化マークアップ言語に変換することができる。
マークアップ言語は、より簡単に更新とカスタマイズを可能にし、学術的コンテンツを言語コーパスのコンパイルなど、多様な用途に適応し、アクセスできるようにする。
このような文書は、通常PDF形式で配信され、数学的公式、数字、ヘッダー、テーブルを含む複雑な要素と、高密度にレイアウトされたテキストを含んでいる。
既存のエンドツーエンドデコーダ変換モデルは、文書のスクリーンショットをマークアップ言語に変換することができる。
しかし、これらのモデルは大きな非効率性を示しており、スクラッチからトークン・バイ・トーケンのデコードを行うと、PDFファイルから直接コピーできる高密度テキストを再生する多くの推論ステップが無駄になる。
この問題を解決するために,PDF から編集済みテキストのキューを識別し,マークアップ言語を生成するハイブリッド編集生成モデル EditTrans を導入する。
EditTransには、arXivから162,127ページのドキュメントに、Document Layout Analysisモデルから微調整された軽量な分類器が含まれている。
我々の評価では、EditTransは変換品質を維持しながら、エンドツーエンドのデコーダトランスモデルと比較して、変換遅延を44.5%まで削減した。
私たちのコードと再現可能なデータセットのプロダクションスクリプトはオープンソースです。
関連論文リスト
- WGRAMMAR: Leverage Prior Knowledge to Accelerate Structured Decoding [58.1177179119881]
我々は、ドメイン認識の単純化、制約分解、マスクキャッシングを統合した軽量デコードエンジンであるwgrammarを紹介する。
wgrammarは、既存のシステムよりも最大250倍のスピードアップを実現します。
論文 参考訳(メタデータ) (2025-07-22T17:13:47Z) - EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering [9.087419148444225]
本稿では,DiT(Diffusion Transformer)に基づくテキストレンダリングフレームワークであるEasyTextを紹介する。
本稿では,文字位置の符号化と位置の符号化手法を提案する。
我々は,100万の多言語画像テキストアノテーションを用いた大規模合成テキスト画像データセットを構築し,20Kの注釈付き画像の高品質なデータセットを構築した。
論文 参考訳(メタデータ) (2025-05-30T09:55:39Z) - olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models [16.470130668266055]
olmOCRは、PDFをクリーンで線形化された平文に自然な読み順で処理するためのオープンソースのツールキットである。
olmOCRは大規模バッチ処理に最適化されており、異なるハードウェア設定に柔軟にスケールすることができる。
GPT-4o, Gemini Flash 2, Qwen-2.5-VLといったトップビジョン言語モデルでも, olmOCRの方が優れています。
論文 参考訳(メタデータ) (2025-02-25T18:38:38Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - WordScape: a Pipeline to extract multilingual, visually rich Documents
with Layout Annotations from Web Crawl Data [13.297444760076406]
本稿では,学際的,多言語的コーパス作成のための新しいパイプラインであるWordScapeを紹介する。
WordScapeはWebから取得したWordドキュメントのオープンXML構造を解析する。
文化的にも言語的にも多様なドキュメントページを提供し、自然な意味構造と高品質なテキストを提供する。
論文 参考訳(メタデータ) (2023-12-15T20:28:31Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - Automatic Document Sketching: Generating Drafts from Analogous Texts [44.626645471195495]
著者がレビューと修正を行うためのドラフト文書全体を生成する新しいタスクである文書スケッチを導入する。
これらのドラフトは、コンテンツのばらつきながら、形式的に重複するドキュメントのセット - 潜在的に再利用可能なテキストの大きなセグメントを共有する - から作成されます。
本研究は,変圧器を用いた専門家の混合と強化学習の併用を含む,弱教師付き手法の適用について検討する。
論文 参考訳(メタデータ) (2021-06-14T06:46:06Z) - Robust PDF Document Conversion Using Recurrent Neural Networks [0.0]
本稿では,リカレントニューラルネットワークを用いたpdfの文書構造復元手法を提案する。
ニューラルネットワークへの入力としてPDF印刷コマンドのシーケンスをどのように使用できるかを示す。
17の異なる構造ラベルで97%の重み付き平均F1スコアを得るモデルを実装します。
論文 参考訳(メタデータ) (2021-02-18T14:39:54Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。