論文の概要: UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters
- arxiv url: http://arxiv.org/abs/2512.21095v1
- Date: Wed, 24 Dec 2025 10:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.757866
- Title: UniRec-0.1B: Unified Text and Formula Recognition with 0.1B Parameters
- Title(参考訳): UniRec-0.1B:0.1Bパラメータによる統一テキストと公式認識
- Authors: Yongkun Du, Zhineng Chen, Yazhen Xie, Weikang Baiand Hao Feng, Wei Shi, Yuchen Su, Can Huang, Yu-Gang Jiang,
- Abstract要約: 視覚言語モデル(VLM)は、テキストと公式の統一的な認識を実現している。
パラメータが0.1Bしか持たない統一認識モデルUniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式の認識を行うことができる。
- 参考スコア(独自算出の注目度): 55.34921520578968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text and formulas constitute the core informational components of many documents. Accurately and efficiently recognizing both is crucial for developing robust and generalizable document parsing systems. Recently, vision-language models (VLMs) have achieved impressive unified recognition of text and formulas. However, they are large-sized and computationally demanding, restricting their usage in many applications. In this paper, we propose UniRec-0.1B, a unified recognition model with only 0.1B parameters. It is capable of performing text and formula recognition at multiple levels, including characters, words, lines, paragraphs, and documents. To implement this task, we first establish UniRec40M, a large-scale dataset comprises 40 million text, formula and their mix samples, enabling the training of a powerful yet lightweight model. Secondly, we identify two challenges when building such a lightweight but unified expert model. They are: structural variability across hierarchies and semantic entanglement between textual and formulaic content. To tackle these, we introduce a hierarchical supervision training that explicitly guides structural comprehension, and a semantic-decoupled tokenizer that separates text and formula representations. Finally, we develop a comprehensive evaluation benchmark covering Chinese and English documents from multiple domains and with multiple levels. Experimental results on this and public benchmarks demonstrate that UniRec-0.1B outperforms both general-purpose VLMs and leading document parsing expert models, while achieving a 2-9$\times$ speedup, validating its effectiveness and efficiency. Codebase and Dataset: https://github.com/Topdu/OpenOCR.
- Abstract(参考訳): テキストと公式は多くの文書の中核的な情報構成要素を構成する。
両者を正確にかつ効率的に認識することは、堅牢で汎用的な文書解析システムの開発に不可欠である。
近年,視覚言語モデル (VLM) はテキストと公式の統一的な認識を実現している。
しかし、それらは大規模で計算的な要求があり、多くのアプリケーションでの使用を制限する。
本稿では,UniRec-0.1Bを提案する。
文字、単語、行、段落、文書など、複数のレベルでテキストや公式認識を行うことができる。
このタスクを実現するために、我々はまず、4000万のテキストと公式とそれらの混合サンプルからなる大規模なデータセットであるUniRec40Mを確立し、強力で軽量なモデルのトレーニングを可能にする。
次に、このような軽量で統一されたエキスパートモデルを構築する際の2つの課題を特定します。
階層構造間の構造的変動と、テキストコンテンツと公式コンテンツの間の意味的絡み合いである。
これらの課題に対処するために、構造的理解を明確に導く階層的な指導訓練と、テキストと公式表現を分離する意味分離トークン化手法を導入する。
最後に、複数のドメインと複数のレベルから中国語と英語の文書を網羅した総合評価ベンチマークを開発する。
このベンチマークと公開ベンチマークの実験結果から、UniRec-0.1Bは汎用VLMと文書解析の専門家モデルの両方より優れており、2-9$\times$ Speedupを実現し、その有効性と効率を検証している。
Codebase and Dataset: https://github.com/Topdu/OpenOCR
関連論文リスト
- StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。
提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文 参考訳(メタデータ) (2025-07-28T21:20:44Z) - Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser [32.62155069664013]
textbfXForm textbfPARSER(textbfXForm)を導入する。
InDFormSFTも開発しています。InDFormSFTは、さまざまな産業的文脈でフォームのパースニーズに対処するデータセットです。
論文 参考訳(メタデータ) (2024-05-27T16:37:17Z) - mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding [100.17063271791528]
MLLMの性能向上を目的とした統一構造学習を提案する。
我々のモデルDocOwl 1.5は、10のビジュアル文書理解ベンチマーク上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-03-19T16:48:40Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - VRDU: A Benchmark for Visually-rich Document Understanding [22.040372755535767]
より包括的なベンチマークのためのdesiderataを特定し、Visually Rich Document Understanding (VRDU)と呼ぶものを提案する。
多様なデータ型と階層的なエンティティを含むリッチスキーマ、テーブルやマルチカラムレイアウトを含む複雑なテンプレート、単一のドキュメントタイプ内のさまざまなレイアウト(テンプレート)の多様性。
提案手法は,抽出結果を評価するために慎重に設計されたマッチングアルゴリズムとともに,数ショットおよび従来型の実験環境を設計する。
論文 参考訳(メタデータ) (2022-11-15T03:17:07Z) - Benchmarking Multimodal AutoML for Tabular Data with Text Fields [83.43249184357053]
テキストフィールドを含む18個のマルチモーダルデータテーブルを組み立てる。
このベンチマークにより、研究者は、数値的、分類的、テキスト的特徴を用いて教師あり学習を行うための独自の方法を評価することができる。
論文 参考訳(メタデータ) (2021-11-04T09:29:16Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Minimally-Supervised Structure-Rich Text Categorization via Learning on
Text-Rich Networks [61.23408995934415]
テキストリッチネットワークから学習することで,最小限に教師付き分類を行う新しいフレームワークを提案する。
具体的には、テキスト理解のためのテキスト解析モジュールと、クラス差別的でスケーラブルなネットワーク学習のためのネットワーク学習モジュールの2つのモジュールを共同でトレーニングします。
実験の結果,1つのカテゴリに3つのシード文書しか与えられず,その精度は約92%であった。
論文 参考訳(メタデータ) (2021-02-23T04:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。