論文の概要: OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition
- arxiv url: http://arxiv.org/abs/2403.19128v1
- Date: Thu, 28 Mar 2024 03:51:14 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-29 17:22:41.276263
- Title: OmniParser: A Unified Framework for Text Spotting, Key Information Extraction and Table Recognition
- Title(参考訳): OmniParser: テキストスポッティング、キー情報抽出、テーブル認識のための統一フレームワーク
- Authors: Jianqiang Wan, Sibo Song, Wenwen Yu, Yuliang Liu, Wenqing Cheng, Fei Huang, Xiang Bai, Cong Yao, Zhibo Yang,
- Abstract要約: 多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には,3つの視覚的なテキスト解析タスクを同時に処理できるOmniというユニバーサルモデルを提案する。
オムニでは、全てのタスクが統一エンコーダ・デコーダアーキテクチャ、統一目的点条件テキスト生成、統一入力表現を共有している。
- 参考スコア(独自算出の注目度): 79.852642726105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, visually-situated text parsing (VsTP) has experienced notable advancements, driven by the increasing demand for automated document understanding and the emergence of Generative Large Language Models (LLMs) capable of processing document-based questions. Various methods have been proposed to address the challenging problem of VsTP. However, due to the diversified targets and heterogeneous schemas, previous works usually design task-specific architectures and objectives for individual tasks, which inadvertently leads to modal isolation and complex workflow. In this paper, we propose a unified paradigm for parsing visually-situated text across diverse scenarios. Specifically, we devise a universal model, called OmniParser, which can simultaneously handle three typical visually-situated text parsing tasks: text spotting, key information extraction, and table recognition. In OmniParser, all tasks share the unified encoder-decoder architecture, the unified objective: point-conditioned text generation, and the unified input & output representation: prompt & structured sequences. Extensive experiments demonstrate that the proposed OmniParser achieves state-of-the-art (SOTA) or highly competitive performances on 7 datasets for the three visually-situated text parsing tasks, despite its unified, concise design. The code is available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery.
- Abstract(参考訳): 近年、自動文書理解の需要が高まり、文書ベースの質問を処理できるジェネレーティブ・大規模言語モデル(LLM)が出現するなど、視覚的なテキスト解析(VsTP)が顕著な進歩を遂げている。
VsTPの課題に対処する様々な手法が提案されている。
しかしながら、多種多様なターゲットと異種スキーマのため、従来の作業は通常、タスク固有のアーキテクチャと個々のタスクの目的を設計します。
本稿では,多様なシナリオにまたがって視覚的なテキストを解析するための統一パラダイムを提案する。
具体的には、テキストスポッティング、キー情報抽出、テーブル認識という3つの典型的な視覚的なテキスト解析タスクを同時に処理できるOmniParserと呼ばれるユニバーサルモデルを考案する。
OmniParserでは、全てのタスクが統一エンコーダ-デコーダアーキテクチャ、統一目的:ポイント条件付きテキスト生成、統一インプット/出力表現:プロンプト&構造化シーケンスを共有している。
大規模な実験により、提案されたOmniParserは、統一された簡潔な設計にもかかわらず、3つの視覚的なテキスト解析タスクに対して、7つのデータセットの最先端(SOTA)または高い競争性能を達成することが示された。
コードはhttps://github.com/AlibabaResearch/AdvancedLiterateMachineryで公開されている。
関連論文リスト
- Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。
画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。
このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T17:07:22Z) - Towards Unified Multi-granularity Text Detection with Interactive Attention [56.79437272168507]
Detect Any Text"は、シーンテキストの検出、レイアウト分析、ドキュメントページの検出を結合的なエンドツーエンドモデルに統合する高度なパラダイムである。
DATにおける重要なイノベーションは、テキストインスタンスの表現学習を大幅に強化する、粒度横断型アテンションモジュールである。
テストによると、DATは様々なテキスト関連ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-05-30T07:25:23Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - TAGPRIME: A Unified Framework for Relational Structure Extraction [71.88926365652034]
TAGPRIMEは、与えられた条件に関する情報を入力テキストに追加するシーケンスタグ付けモデルである。
事前学習された言語モデルにおける自己認識機構により、プライミングワードは、出力された文脈化された表現に、与えられた条件に関するより多くの情報を含む。
5つの異なる言語にまたがる10のデータセットをカバーする3つのタスクに関する大規模な実験と分析は、TAGPRIMEの汎用性と有効性を示している。
論文 参考訳(メタデータ) (2022-05-25T08:57:46Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - StrucTexT: Structured Text Understanding with Multi-Modal Transformers [29.540122964399046]
Visually Rich Documents (VRD)における構造化テキスト理解は、ドキュメントインテリジェンスの重要な部分である。
本稿では,SrucTexTという統合フレームワークを提案する。
セグメントレベルおよびトークンレベルで構造化されたテキスト理解の手法を評価し,その手法が最先端のテキスト理解よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T02:57:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。