論文の概要: Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting
- arxiv url: http://arxiv.org/abs/2602.05384v1
- Date: Thu, 05 Feb 2026 07:09:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.802725
- Title: Dolphin-v2: Universal Document Parsing via Scalable Anchor Prompting
- Title(参考訳): Dolphin-v2: スケーラブルアンカープロンプによるユニバーサルドキュメント解析
- Authors: Hao Feng, Wei Shi, Ke Zhang, Xiang Fei, Lei Liao, Dingkang Yang, Yongkun Du, Xuecheng Wu, Jingqun Tang, Yang Liu, Hong Chen, Can Huang,
- Abstract要約: 2段階の文書画像解析モデルであるDolphin-v2を提案する。
第1段階では、Dolphin-v2 はレイアウト解析とともに文書型分類(デジタル生まれか写真か)を共同で行う。
第2段階では、撮影された文書は、幾何学的歪みを処理するために全ページとして一様に解析されるのに対し、デジタル生まれの文書は、検出されたレイアウトアンカーによって案内される要素的並列解析を行う。
- 参考スコア(独自算出の注目度): 46.102790941920865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document parsing has garnered widespread attention as vision-language models (VLMs) advance OCR capabilities. However, the field remains fragmented across dozens of specialized models with varying strengths, forcing users to navigate complex model selection and limiting system scalability. Moreover, existing two-stage approaches depend on axis-aligned bounding boxes for layout detection, failing to handle distorted or photographed documents effectively. To this end, we present Dolphin-v2, a two-stage document image parsing model that substantially improves upon the original Dolphin. In the first stage, Dolphin-v2 jointly performs document type classification (digital-born versus photographed) alongside layout analysis. For digital-born documents, it conducts finer-grained element detection with reading order prediction. In the second stage, we employ a hybrid parsing strategy: photographed documents are parsed holistically as complete pages to handle geometric distortions, while digital-born documents undergo element-wise parallel parsing guided by the detected layout anchors, enabling efficient content extraction. Compared with the original Dolphin, Dolphin-v2 introduces several crucial enhancements: (1) robust parsing of photographed documents via holistic page-level understanding, (2) finer-grained element detection (21 categories) with semantic attribute extraction such as author information and document metadata, and (3) code block recognition with indentation preservation, which existing systems typically lack. Comprehensive evaluations are conducted on DocPTBench, OmniDocBench, and our self-constructed RealDoc-160 benchmark. The results demonstrate substantial improvements: +14.78 points overall on the challenging OmniDocBench and 91% error reduction on photographed documents, while maintaining efficient inference through parallel processing.
- Abstract(参考訳): 文書解析は、視覚言語モデル(VLM)がOCR能力を向上するにつれ、広く注目を集めている。
しかし、フィールドは様々な強みを持つ数十の専門モデルで断片化されており、ユーザーは複雑なモデル選択とシステムのスケーラビリティの制限をナビゲートせざるを得ない。
さらに、既存の2段階のアプローチは、レイアウト検出のための軸方向のバウンディングボックスに依存しており、歪んだ文書や写真ドキュメントを効果的に扱えない。
そこで本研究では,Dolphin-v2という2段階の文書画像解析モデルを提案する。
第1段階では、Dolphin-v2 はレイアウト解析とともに文書型分類(デジタル生まれか写真か)を共同で行う。
デジタル生まれの文書では、読み出し順序予測によるよりきめ細かい要素検出を行う。
第2段階では、撮影された文書は、幾何学的歪みを処理するために全ページとして一様に解析され、一方、デジタル生まれの文書は、検出されたレイアウトアンカーによって案内される要素的並列解析を受け、効率的なコンテンツ抽出を可能にする。
最初のDolphinと比較して、Dolphin-v2は、(1)全体的ページレベルの理解による写真文書の堅牢な解析、(2)著者情報や文書メタデータなどのセマンティック属性抽出によるきめ細かい要素検出(21カテゴリ)、(3)インデント保存によるコードブロック認識など、いくつかの重要な機能強化を導入している。
総合評価はDocPTBench,OmniDocBench,および自己構築型RealDoc-160ベンチマークを用いて行った。
その結果,OmniDocBenchの難易度を+14.78ポイント,写真文書の91%の誤り削減,並列処理による効率的な推論の維持など,大幅な改善が得られた。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Dolphin: Document Image Parsing via Heterogeneous Anchor Prompting [20.588630224794976]
文書画像解析は、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、困難である。
textitDolphinは、解析-テーマ-パースパラダイムに従って、新しいマルチモーダル文書画像解析モデルである。
Dolphinは、さまざまなページレベルと要素レベルの設定で最先端のパフォーマンスを実現し、優れた効率を保証する。
論文 参考訳(メタデータ) (2025-05-20T08:03:59Z) - DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral [11.336757553731639]
多くのダウンストリームタスクにおいて、ドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することが不可欠である。
多くの文書は機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。
初となるHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralについて述べる。
論文 参考訳(メタデータ) (2025-05-06T06:02:42Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。