論文の概要: Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion
- arxiv url: http://arxiv.org/abs/2602.11960v1
- Date: Thu, 12 Feb 2026 13:55:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.853611
- Title: Benchmarking Vision-Language Models for French PDF-to-Markdown Conversion
- Title(参考訳): フランスPDF-Markdown変換のためのベンチマークビジョンランゲージモデル
- Authors: Bruno Rigal, Victor Dupriez, Alexis Mignon, Ronan Le Hy, Nicolas Mery,
- Abstract要約: 本稿では,近年のVLM(Vision-Language Models)を用いたPDF-to-Markdown変換の評価を行った。
そこで本研究では,6万件の文書のコーパスから抽出したサンプルデータを用いて,難解なページを抽出する手法を提案する。
我々は、手書きとフォームで最強のプロプライエタリなモデルに対して、かなり高いロバスト性を観察する一方、いくつかのオープンウェイトシステムは、標準のプリントレイアウトにおいて競争力を維持している。
- 参考スコア(独自算出の注目度): 0.14680035572775532
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This report evaluates PDF-to-Markdown conversion using recent Vision-Language Models (VLMs) on challenging French documents. Document parsing is a critical step for Retrieval-Augmented Generation (RAG) pipelines, where transcription and layout errors propagate to downstream retrieval and grounding. Existing benchmarks often emphasize English or Chinese and can over-penalize benign formatting and linearization choices (e.g., line breaks, list segmentation, alternative table renderings) that are largely irrelevant for downstream use. We introduce a French-focused benchmark of difficult pages selected via model-disagreement sampling from a corpus of 60{,}000 documents, covering handwritten forms, complex layouts, dense tables, and graphics-rich pages. Evaluation is performed with unit-test-style checks that target concrete failure modes (text presence, reading order, and local table constraints) combined with category-specific normalization designed to discount presentation-only variance. Across 15 models, we observe substantially higher robustness for the strongest proprietary models on handwriting and forms, while several open-weights systems remain competitive on standard printed layouts.
- Abstract(参考訳): 本稿では,近年のVLM(Vision-Language Models)を用いたPDF-to-Markdown変換の評価を行った。
Retrieval-Augmented Generation (RAG)パイプラインにとって、ドキュメント解析は重要なステップである。
既存のベンチマークでは英語や中国語が強調されることが多く、ダウンストリームではほとんど関係のない良質なフォーマットや線形化の選択(線分、リストのセグメンテーション、代替テーブルのレンダリングなど)を過小評価することができる。
そこで本研究では,60{,}000文書のコーパスから,手書き形式,複雑なレイアウト,高密度テーブル,グラフィックリッチなページを抽出し,難解なページを抽出する手法を提案する。
具体的な障害モード(テキスト存在、読み順、ローカルテーブル制約)をターゲットとした単体テストスタイルのチェックと、プレゼンテーションのみの分散を割引するために設計されたカテゴリ固有の正規化を併用して評価を行う。
15モデルにわたって、手書きとフォームで最強のプロプライエタリなモデルに対して、かなり高いロバスト性を観察する一方、いくつかのオープンウェイトシステムは、標準のプリントレイアウトにおいて競争力を維持している。
関連論文リスト
- FMBench: Adaptive Large Language Model Output Formatting [49.52930069696333]
適応型マークダウン出力フォーマットのベンチマークであるFMBenchを提案する。
2つのモデルファミリーの実験は、SFTが一貫してセマンティックアライメントを改善していることを示している。
結果はまた、意味的目的と構造的目的の間に固有のトレードオフを明らかにします。
論文 参考訳(メタデータ) (2026-02-06T04:42:06Z) - Logics-Parsing Technical Report [8.982345117231661]
我々は、強化学習を付加したエンドツーエンドのLVLMモデルであるLogics-Parsingを提案する。
本モデルでは、複雑なレイアウト解析と読み出し順序推定を最適化するために、厳密に設計された報酬機構を組み込んでいる。
LogicsParsingBenchは、9つの主要なカテゴリと20以上のサブカテゴリにまたがる1,078ページレベルのPDFイメージのキュレートされたセットである。
論文 参考訳(メタデータ) (2025-09-24T04:54:37Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
layoutRLは、レイアウトを明示的に認識するようにモデルをトレーニングするエンドツーエンドの強化学習フレームワークである。
堅牢なドキュメント理解の進歩を加速するために、コードとデータセットを公開します。
論文 参考訳(メタデータ) (2025-06-01T15:19:52Z) - MIRACL-VISION: A Large, multilingual, visual document retrieval benchmark [1.8448587047759064]
MIRACL-VISIONは多言語視覚文書評価評価ベンチマークである。
MIRACL-VISIONは18の言語をカバーし、MIRACLデータセットの拡張である。
我々は,多言語機能に対する最先端のVLMベースの埋め込みモデルのギャップを観察する。
論文 参考訳(メタデータ) (2025-05-16T19:22:19Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。