論文の概要: Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding
- arxiv url: http://arxiv.org/abs/2601.20430v1
- Date: Wed, 28 Jan 2026 09:37:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.88322
- Title: Youtu-Parsing: Perception, Structuring and Recognition via High-Parallelism Decoding
- Title(参考訳): Youtu-Parsing:ハイパラレル・デコードによる知覚・構造化・認識
- Authors: Kun Yin, Yunfei Wu, Bing Liu, Zhongpeng Cai, Xiaotian Li, Huang Chen, Xin Li, Haoyu Cao, Yinsong Liu, Deqiang Jiang, Xing Sun, Yunsheng Wu, Qianyu Li, Antai Guo, Yanzhen Liao, Yanqiu Qu, Haodong Lin, Chengxu He, Shuangyin Liu,
- Abstract要約: Youtu-Parsingは、高性能コンテンツ抽出のために設計された、効率的で汎用的な文書解析モデルである。
このモデルは稀な文字、多言語テキスト、手書きコンテンツを扱う際に強い堅牢性を示す。
Youtu-ParsingはOmniDocBenchおよびolmOCR-benchベンチマーク上での最先端(SOTA)パフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 35.429403152845836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Youtu-Parsing, an efficient and versatile document parsing model designed for high-performance content extraction. The architecture employs a native Vision Transformer (ViT) featuring a dynamic-resolution visual encoder to extract shared document features, coupled with a prompt-guided Youtu-LLM-2B language model for layout analysis and region-prompted decoding. Leveraging this decoupled and feature-reusable framework, we introduce a high-parallelism decoding strategy comprising two core components: token parallelism and query parallelism. The token parallelism strategy concurrently generates up to 64 candidate tokens per inference step, which are subsequently validated through a verification mechanism. This approach yields a 5--11x speedup over traditional autoregressive decoding and is particularly well-suited for highly structured scenarios, such as table recognition. To further exploit the advantages of region-prompted decoding, the query parallelism strategy enables simultaneous content prediction for multiple bounding boxes (up to five), providing an additional 2x acceleration while maintaining output quality equivalent to standard decoding. Youtu-Parsing encompasses a diverse range of document elements, including text, formulas, tables, charts, seals, and hierarchical structures. Furthermore, the model exhibits strong robustness when handling rare characters, multilingual text, and handwritten content. Extensive evaluations demonstrate that Youtu-Parsing achieves state-of-the-art (SOTA) performance on both the OmniDocBench and olmOCR-bench benchmarks. Overall, Youtu-Parsing demonstrates significant experimental value and practical utility for large-scale document intelligence applications.
- Abstract(参考訳): 本稿では,高性能コンテンツ抽出のための文書解析モデルであるYoutu-Parsingを提案する。
このアーキテクチャは、動的解像度のビジュアルエンコーダを特徴とするネイティブビジョントランスフォーマー(ViT)を用いて共有文書の特徴を抽出し、レイアウト解析と領域プロンプトデコーディングのためのプロンプト誘導のYoutu-LLM-2B言語モデルと組み合わせている。
この分離された機能再利用可能なフレームワークを活用して、トークン並列性とクエリ並列性という2つのコアコンポーネントからなる高並列性復号戦略を導入する。
トークン並列化戦略は、推論ステップ毎に最大64個の候補トークンを同時に生成し、検証メカニズムを通じて検証される。
このアプローチは従来の自己回帰デコーディングよりも5-11倍のスピードアップをもたらし、テーブル認識のような高度に構造化されたシナリオに特に適している。
領域プロンプトデコーディングの利点をさらに活用するために、クエリ並列化戦略は、複数のバウンディングボックス(最大5つ)の同時コンテンツ予測を可能にし、標準デコーディングと同等の出力品質を維持しつつ、追加の2倍のアクセラレーションを提供する。
Youtu-Parsingは、テキスト、公式、テーブル、チャート、アザラシ、階層構造など、さまざまなドキュメント要素を含んでいる。
さらに,レア文字,多言語テキスト,手書きコンテンツを扱う場合,強靭性を示す。
大規模な評価では、Youtu-ParsingはOmniDocBenchベンチマークとolmOCR-benchベンチマークの両方で、最先端(SOTA)のパフォーマンスを達成している。
全体として、Youtu-Parsingは大規模な文書インテリジェンスアプリケーションにおいて、大きな実験的価値と実用性を示す。
関連論文リスト
- PARL: Position-Aware Relation Learning Network for Document Layout Analysis [23.497081928689525]
効果的なレイアウト解析は,テキストと視覚の融合ではなく,文書の本質的な視覚構造を深く理解することに依存する。
位置感度とリレーショナル構造を用いてレイアウトをモデル化する新しいOCRフリー・ビジョンオンリーのフレームワークを提案する。
実験により、PARL (65M) は大規模マルチモーダルモデルより約4倍少ないパラメータを用いて非常に効率的であることが示されている。
論文 参考訳(メタデータ) (2026-01-12T15:05:35Z) - Qwen3-VL Technical Report [153.3964813640593]
Qwen3-VLは、これまでで最も有能な視覚言語モデルであり、幅広いマルチモーダルベンチマークで優れた性能を実現している。
最大256Kトークンのインターリーブコンテキストをサポートし、テキスト、画像、ビデオをシームレスに統合する。
Qwen3-VLは3つの中核柱を提供する: (i) 非常に強い純粋テキスト理解、いくつかのケースにおいて同等のテキストのみのバックボーンを超える、 (ii) テキスト入力とインターリーブされたマルチモーダル入力の両方に256Kのネイティブウィンドウを持つ堅牢な長期理解、 (iii) シングルイメージ、マルチイメージ、ビデオタスクをまたいだ高度なマルチモーダル推論。
論文 参考訳(メタデータ) (2025-11-26T17:59:08Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Infinity Parser: Layout Aware Reinforcement Learning for Scanned Document Parsing [46.14775667559124]
スキャンされた画像から文書を解析することは、テキストの段落、図形、公式、表などの複雑な要素が絡み合っているため、依然として重要な課題である。
既存の教師付き微調整手法は、様々なドキュメントタイプにまたがる一般化に苦慮し、特にアウト・オブ・ディストリビューションデータにおいて、パフォーマンスが低下する。
本稿では、正規化編集距離カウント精度と読み出し順序保存を統合した複合報酬によるレイアウト理解を最適化する強化学習フレームワークであるLayoutRLを紹介する。
Infinity-Benchは、幅広いドキュメントタイプ、言語、構造的複雑さに対して、常に最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2025-10-17T06:26:59Z) - QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - OmniParser V2: Structured-Points-of-Thought for Unified Visual Text Parsing and Its Generality to Multimodal Large Language Models [58.45517851437422]
VsTP(Visually-situated text parsing)は、自動化された文書理解の需要が高まり、最近顕著な進歩を遂げている。
既存のソリューションは、タスク固有のアーキテクチャと個々のタスクの目的に依存していることが多い。
本稿では,テキストスポッティング,キー情報抽出,テーブル認識,レイアウト解析など,VsTPの典型的なタスクを統一する汎用モデルであるOmni V2を紹介する。
論文 参考訳(メタデータ) (2025-02-22T09:32:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。