論文の概要: TransDocAnalyser: A Framework for Offline Semi-structured Handwritten
Document Analysis in the Legal Domain
- arxiv url: http://arxiv.org/abs/2306.02142v1
- Date: Sat, 3 Jun 2023 15:56:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:54:50.874853
- Title: TransDocAnalyser: A Framework for Offline Semi-structured Handwritten
Document Analysis in the Legal Domain
- Title(参考訳): TransDocAnalyser: 法域におけるオフライン半構造化手書き文書解析のためのフレームワーク
- Authors: Sagar Chakraborty, Gaurav Harit and Saptarshi Ghosh
- Abstract要約: 最初の半構造化文書解析データセットを法域内に構築する。
このデータセットは、多種多様な手書きテキストと印刷テキストを組み合わせる。
本稿では,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.5018563401895455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art offline Optical Character Recognition (OCR) frameworks
perform poorly on semi-structured handwritten domain-specific documents due to
their inability to localize and label form fields with domain-specific
semantics. Existing techniques for semi-structured document analysis have
primarily used datasets comprising invoices, purchase orders, receipts, and
identity-card documents for benchmarking. In this work, we build the first
semi-structured document analysis dataset in the legal domain by collecting a
large number of First Information Report (FIR) documents from several police
stations in India. This dataset, which we call the FIR dataset, is more
challenging than most existing document analysis datasets, since it combines a
wide variety of handwritten text with printed text. We also propose an
end-to-end framework for offline processing of handwritten semi-structured
documents, and benchmark it on our novel FIR dataset. Our framework used
Encoder-Decoder architecture for localizing and labelling the form fields and
for recognizing the handwritten content. The encoder consists of Faster-RCNN
and Vision Transformers. Further the Transformer-based decoder architecture is
trained with a domain-specific tokenizer. We also propose a post-correction
method to handle recognition errors pertaining to the domain-specific terms.
Our proposed framework achieves state-of-the-art results on the FIR dataset
outperforming several existing models
- Abstract(参考訳): 最先端のオフライン光文字認識(ocr)フレームワークは、ドメイン固有のセマンティクスでフォームフィールドのローカライズとラベル付けができないため、半構造化手書きのドメイン固有ドキュメントでは性能が劣る。
半構造化文書分析の既存の技術は、主に請求書、購入注文、領収書、およびベンチマーク用のIDカード文書を含むデータセットを使用している。
本研究では,インドのいくつかの警察署からFIR(First Information Report)文書を多数収集し,法域内で最初の半構造化文書解析データセットを構築する。
firデータセットと呼ばれるこのデータセットは、さまざまな手書きテキストと印刷テキストを組み合わせているため、既存の他のドキュメント分析データセットよりも難しい。
また,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案し,新しいfirデータセットでベンチマークを行う。
本フレームワークでは,フォームフィールドのローカライズとラベル付け,手書きコンテンツの認識にEncoder-Decoderアーキテクチャを使用した。
エンコーダはFaster-RCNNとVision Transformerで構成されている。
さらに、トランスフォーマティブベースのデコーダアーキテクチャをドメイン固有のトークン化器でトレーニングする。
また,ドメイン固有項に関する認識誤りを処理するポスト補正手法を提案する。
提案フレームワークは,既存モデルに匹敵するfirデータセット上での最先端結果を実現する
関連論文リスト
- Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。
本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。
提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-10-26T03:07:22Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。
FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文 参考訳(メタデータ) (2024-07-09T14:35:49Z) - DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents [0.0]
文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。
いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。
現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。
我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
論文 参考訳(メタデータ) (2024-04-30T04:53:10Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of
Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。
私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。
本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文 参考訳(メタデータ) (2023-03-24T07:23:56Z) - Combining Deep Learning and Reasoning for Address Detection in
Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。
スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文 参考訳(メタデータ) (2022-02-07T12:32:00Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。
広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。
より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文 参考訳(メタデータ) (2021-04-15T21:43:13Z) - DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。
本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。
我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文 参考訳(メタデータ) (2020-07-06T16:35:30Z) - Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。
我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。
各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文 参考訳(メタデータ) (2020-03-30T03:04:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。