論文の概要: dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model
- arxiv url: http://arxiv.org/abs/2512.02498v1
- Date: Tue, 02 Dec 2025 07:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.775433
- Title: dots.ocr: Multilingual Document Layout Parsing in a Single Vision-Language Model
- Title(参考訳): dots.ocr: 単一視覚言語モデルにおける多言語文書レイアウト解析
- Authors: Yumeng Li, Guang Yang, Hao Liu, Bowen Wang, Colin Zhang,
- Abstract要約: dots.ocrは、統合されたエンドツーエンドフレームワーク内で3つのコアタスクを学習するビジョンランゲージモデルである。
これは、巨大な多言語コーパスを合成する高度にスケーラブルなデータエンジンによって実現されている。
統合パラダイムの有効性は,OmniDocBenchの最先端性能によって検証される。
- 参考スコア(独自算出の注目度): 24.35392364602848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document Layout Parsing serves as a critical gateway for Artificial Intelligence (AI) to access and interpret the world's vast stores of structured knowledge. This process,which encompasses layout detection, text recognition, and relational understanding, is particularly crucial for empowering next-generation Vision-Language Models. Current methods, however, rely on fragmented, multi-stage pipelines that suffer from error propagation and fail to leverage the synergies of joint training. In this paper, we introduce dots.ocr, a single Vision-Language Model that, for the first time, demonstrates the advantages of jointly learning three core tasks within a unified, end-to-end framework. This is made possible by a highly scalable data engine that synthesizes a vast multilingual corpus, empowering the model to deliver robust performance across a wide array of tasks, encompassing diverse languages, layouts, and domains. The efficacy of our unified paradigm is validated by state-of-the-art performance on the comprehensive OmniDocBench. Furthermore, to catalyze research in global document intelligence, we introduce XDocParse, a challenging new benchmark spanning 126 languages. On this testbed, dots.ocr establishes a powerful new baseline, outperforming the next-best competitor by a remarkable +7.4 point margin and proving its unparalleled multilingual capabilities.
- Abstract(参考訳): ドキュメントレイアウト解析(Document Layout Parsing)は、世界の膨大な構造化知識にアクセスし解釈するための人工知能(AI)の重要なゲートウェイとして機能する。
レイアウト検出、テキスト認識、リレーショナル理解を含むこのプロセスは、次世代のビジョンランゲージモデルを強化する上で特に重要である。
しかし、現在の手法は、エラーの伝播に悩まされ、関節訓練のシナジーを活用できない断片化された多段階パイプラインに依存している。
本稿では、単一のビジョン・ランゲージモデルであるdots.ocrを紹介し、統合されたエンドツーエンドフレームワーク内で3つのコアタスクを共同で学習する利点を初めて示す。
これは、広範囲の多言語コーパスを合成する高度にスケーラブルなデータエンジンによって実現され、多様な言語、レイアウト、ドメインを含む幅広いタスクで堅牢なパフォーマンスを実現するためにモデルに権限を与える。
統合パラダイムの有効性は,OmniDocBenchの最先端性能によって検証される。
さらに,グローバルドキュメントインテリジェンスの研究を促進するために,126言語にまたがる新たなベンチマークであるXDocParseを紹介する。
このテストベッド上で、dots.ocrは強力な新しいベースラインを確立し、注目すべき+7.4ポイントのマージンで次位の競争相手を上回っ、非並列な多言語機能を証明する。
関連論文リスト
- TowerVision: Understanding and Improving Multilinguality in Vision-Language Models [56.775118098058506]
TowerVisionは、画像テキストとビデオテキストの両方のためのオープンな多言語視覚言語モデルである。
微調整中に視覚的、文化的コンテキストを取り入れることで、私たちのモデルは既存のアプローチを超えます。
さらなる研究を支援するため、すべてのモデル、データ、トレーニングレシピを公開しています。
論文 参考訳(メタデータ) (2025-10-22T17:02:48Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
スキャンされた画像から文書を解析することは、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
本稿では、正規化編集距離カウント精度と読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介する。
Infinity-Benchは、幅広いドキュメントタイプ、言語、構造的複雑さに対して、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-17T06:26:59Z) - PromotionGo at SemEval-2025 Task 11: A Feature-Centric Framework for Cross-Lingual Multi-Emotion Detection in Short Texts [1.210852962855694]
本稿では,SemEval 2025 Task 11: Bridging the Gap in Text-based Emotion Detectionについて述べる。
本稿では,文書表現と学習アルゴリズムを動的に適用し,言語固有の性能を最適化する機能中心フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-11T11:21:18Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z) - FewTopNER: Integrating Few-Shot Learning with Topic Modeling and Named Entity Recognition in a Multilingual Framework [0.0]
FewTopNERは、数発のエンティティ認識とトピック対応のコンテキストモデリングを統合するフレームワークである。
多言語ベンチマークの実証評価では、FewTopNERは最先端の数ショットNERモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-02-04T15:13:40Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Incorporating Linguistic Knowledge for Abstractive Multi-document
Summarization [20.572283625521784]
ニューラルネットワークに基づく抽象的多文書要約(MDS)モデルを開発した。
依存関係情報を言語誘導型注意機構に処理する。
言語信号の助けを借りて、文レベルの関係を正しく捉えることができる。
論文 参考訳(メタデータ) (2021-09-23T08:13:35Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。