論文の概要: PP-StructureV2: A Stronger Document Analysis System
- arxiv url: http://arxiv.org/abs/2210.05391v2
- Date: Thu, 13 Oct 2022 07:11:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:36:09.841799
- Title: PP-StructureV2: A Stronger Document Analysis System
- Title(参考訳): PP-StructureV2:より強力な文書解析システム
- Authors: Chenxia Li, Ruoyu Guo, Jun Zhou, Mengtao An, Yuning Du, Lingfeng Zhu,
Yi Liu, Xiaoguang Hu, Dianhai Yu
- Abstract要約: 大量の文書データは、テキスト情報のない原画像のような構造化されていない形で存在する。
本稿では、レイアウト情報抽出とキー情報抽出という2つのサブシステムを含むPP-StructureV2を提案する。
上記のモデルとコードは、すべてGitHubリポジトリPaddleOCRでオープンソース化されている。
- 参考スコア(独自算出の注目度): 9.846187457305879
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A large amount of document data exists in unstructured form such as raw
images without any text information. Designing a practical document image
analysis system is a meaningful but challenging task. In previous work, we
proposed an intelligent document analysis system PP-Structure. In order to
further upgrade the function and performance of PP-Structure, we propose
PP-StructureV2 in this work, which contains two subsystems: Layout Information
Extraction and Key Information Extraction. Firstly, we integrate Image
Direction Correction module and Layout Restoration module to enhance the
functionality of the system. Secondly, 8 practical strategies are utilized in
PP-StructureV2 for better performance. For Layout Analysis model, we introduce
ultra light-weight detector PP-PicoDet and knowledge distillation algorithm FGD
for model lightweighting, which increased the inference speed by 11 times with
comparable mAP. For Table Recognition model, we utilize PP-LCNet, CSP-PAN and
SLAHead to optimize the backbone module, feature fusion module and decoding
module, respectively, which improved the table structure accuracy by 6\% with
comparable inference speed. For Key Information Extraction model, we introduce
VI-LayoutXLM which is a visual-feature independent LayoutXLM architecture,
TB-YX sorting algorithm and U-DML knowledge distillation algorithm, which
brought 2.8\% and 9.1\% improvement respectively on the Hmean of Semantic
Entity Recognition and Relation Extraction tasks. All the above mentioned
models and code are open-sourced in the GitHub repository PaddleOCR.
- Abstract(参考訳): 大量の文書データは、テキスト情報なしで生画像などの非構造化形式で存在する。
実用的な文書画像解析システムを設計することは有意義だが難しい課題である。
先行研究では,知的文書解析システムpp-structureを提案する。
本研究では,PP構造体の機能と性能をさらに向上するために,レイアウト情報抽出とキー情報抽出という2つのサブシステムを含むPP構造体V2を提案する。
まず,画像方向補正モジュールとレイアウト復元モジュールを統合し,システムの機能を向上させる。
第2に,pp-structurev2では,性能向上のために8つの実用戦略が活用されている。
レイアウト解析モデルでは,超軽量検出器PP-PicoDetとモデル軽量化のための知識蒸留アルゴリズムFGDを導入する。
表認識モデルでは, PP-LCNet, CSP-PAN, SLAHeadを用いて, バックボーンモジュール, 機能融合モジュール, デコードモジュールの最適化を行う。
キー情報抽出モデルとして,vi-layoutxlmを提案する。vi-layoutxlmは視覚特徴独立なlayoutxlmアーキテクチャであり,tb-yxソートアルゴリズムとu-dml知識蒸留アルゴリズムは,意味的エンティティ認識と関係抽出タスクのhmeanに対してそれぞれ2.8\%,9.1\%の改善をもたらす。
上記のモデルとコードは、すべてGitHubリポジトリPaddleOCRでオープンソース化されている。
関連論文リスト
- Binarized Diffusion Model for Image Super-Resolution [61.963833405167875]
超圧縮アルゴリズムであるバイナリ化は、高度な拡散モデル(DM)を効果的に加速する可能性を提供する
既存の二項化法では性能が著しく低下する。
画像SRのための新しいバイナライズ拡散モデルBI-DiffSRを提案する。
論文 参考訳(メタデータ) (2024-06-09T10:30:25Z) - Sample Complexity Characterization for Linear Contextual MDPs [67.79455646673762]
文脈決定プロセス(CMDP)は、遷移カーネルと報酬関数がコンテキスト変数によってインデックス付けされた異なるMDPで時間とともに変化できる強化学習のクラスを記述する。
CMDPは、時間とともに変化する環境で多くの現実世界のアプリケーションをモデル化するための重要なフレームワークとして機能する。
CMDPを2つの線形関数近似モデルで検討する: 文脈変化表現とすべての文脈に対する共通線形重み付きモデルIと、すべての文脈に対する共通表現と文脈変化線形重み付きモデルIIである。
論文 参考訳(メタデータ) (2024-02-05T03:25:04Z) - CLIP-AD: A Language-Guided Staged Dual-Path Model for Zero-shot Anomaly
Detection [49.510604614688745]
大規模視覚言語モデルCLIPのゼロショット機能を活用するために,CLIP-ADというフレームワークを提案する。
異常写像の直接計算における逆の予測と無関係なハイライトについて述べる。
論文 参考訳(メタデータ) (2023-11-01T11:39:22Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Exploring Multimodal Sentiment Analysis via CBAM Attention and
Double-layer BiLSTM Architecture [3.9850392954445875]
本モデルでは,文中の長距離依存関係を抽出するためにBERT + BiLSTM を用いる。
余分な情報を除去するために、テキスト特徴と画像特徴をスプライシングした後、CNNとCBAMの注意を追加する。
実験結果から,従来のモデルと同様の音響効果が得られた。
論文 参考訳(メタデータ) (2023-03-26T12:34:01Z) - Extracting Motion and Appearance via Inter-Frame Attention for Efficient
Video Frame Interpolation [46.23787695590861]
動作と外観情報を統一操作により明示的に抽出する新しいモジュールを提案する。
具体的には、フレーム間注目における情報処理を再考し、その注目マップを外観特徴強調と動き情報抽出の両方に再利用する。
固定時間と任意時間の両方において,本手法は各種データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-01T12:00:15Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - VSR: A Unified Framework for Document Layout Analysis combining Vision,
Semantics and Relations [40.721146438291335]
視覚、意味論、関係性を組み合わせた文書レイアウト解析のための統一フレームワークVSRを提案する。
人気のある3つのベンチマークでは、vsrは以前のモデルを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-13T12:20:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。