Fugu-MT 論文翻訳(概要): TransDocAnalyser: A Framework for Offline Semi-structured Handwritten Document Analysis in the Legal Domain

論文の概要: TransDocAnalyser: A Framework for Offline Semi-structured Handwritten Document Analysis in the Legal Domain

arxiv url: http://arxiv.org/abs/2306.02142v1
Date: Sat, 3 Jun 2023 15:56:30 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-06 19:54:50.874853
Title: TransDocAnalyser: A Framework for Offline Semi-structured Handwritten Document Analysis in the Legal Domain
Title（参考訳）: TransDocAnalyser: 法域におけるオフライン半構造化手書き文書解析のためのフレームワーク
Authors: Sagar Chakraborty, Gaurav Harit and Saptarshi Ghosh
Abstract要約: 最初の半構造化文書解析データセットを法域内に構築する。このデータセットは、多種多様な手書きテキストと印刷テキストを組み合わせる。本稿では,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案する。
参考スコア（独自算出の注目度）: 3.5018563401895455
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art offline Optical Character Recognition (OCR) frameworks perform poorly on semi-structured handwritten domain-specific documents due to their inability to localize and label form fields with domain-specific semantics. Existing techniques for semi-structured document analysis have primarily used datasets comprising invoices, purchase orders, receipts, and identity-card documents for benchmarking. In this work, we build the first semi-structured document analysis dataset in the legal domain by collecting a large number of First Information Report (FIR) documents from several police stations in India. This dataset, which we call the FIR dataset, is more challenging than most existing document analysis datasets, since it combines a wide variety of handwritten text with printed text. We also propose an end-to-end framework for offline processing of handwritten semi-structured documents, and benchmark it on our novel FIR dataset. Our framework used Encoder-Decoder architecture for localizing and labelling the form fields and for recognizing the handwritten content. The encoder consists of Faster-RCNN and Vision Transformers. Further the Transformer-based decoder architecture is trained with a domain-specific tokenizer. We also propose a post-correction method to handle recognition errors pertaining to the domain-specific terms. Our proposed framework achieves state-of-the-art results on the FIR dataset outperforming several existing models
Abstract（参考訳）: 最先端のオフライン光文字認識(ocr)フレームワークは、ドメイン固有のセマンティクスでフォームフィールドのローカライズとラベル付けができないため、半構造化手書きのドメイン固有ドキュメントでは性能が劣る。半構造化文書分析の既存の技術は、主に請求書、購入注文、領収書、およびベンチマーク用のIDカード文書を含むデータセットを使用している。本研究では,インドのいくつかの警察署からFIR(First Information Report)文書を多数収集し,法域内で最初の半構造化文書解析データセットを構築する。 firデータセットと呼ばれるこのデータセットは、さまざまな手書きテキストと印刷テキストを組み合わせているため、既存の他のドキュメント分析データセットよりも難しい。また,手書き半構造化文書のオフライン処理のためのエンドツーエンドフレームワークを提案し,新しいfirデータセットでベンチマークを行う。本フレームワークでは,フォームフィールドのローカライズとラベル付け,手書きコンテンツの認識にEncoder-Decoderアーキテクチャを使用した。エンコーダはFaster-RCNNとVision Transformerで構成されている。さらに、トランスフォーマティブベースのデコーダアーキテクチャをドメイン固有のトークン化器でトレーニングする。また,ドメイン固有項に関する認識誤りを処理するポスト補正手法を提案する。提案フレームワークは,既存モデルに匹敵するfirデータセット上での最先端結果を実現する

関連論文リスト

ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文参考訳（メタデータ） (2025-09-01T11:32:24Z)
ForensicHub: A Unified Benchmark & Codebase for All-Domain Fake Image Detection and Localization [48.147576833781386]
ForensicHubは、オールドメインの偽画像検出とローカライゼーションのための最初の統一ベンチマークである。科学的なパイプラインをデータセット、変換、モデル、評価者間で交換可能なコンポーネントに分解する。 FIDLモデルアーキテクチャ、データセットの特徴、評価標準に関する8つの重要な実行可能な洞察を提供する。
論文参考訳（メタデータ） (2025-05-16T08:49:59Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
Multi-Field Adaptive Retrieval [39.38972160512916]
MFAR(Multi-Field Adaptive Retrieval)は、構造化データ上の任意の文書インデックスに対応するフレキシブルなフレームワークである。本フレームワークは,(1) 既存の文書のフィールドへの分解,(2) 文書クエリの条件付けによるフィールドの重要性を適応的に予測するモデル学習,という2つのステップから構成される。提案手法により,フィールドタイプ間での濃密表現と語彙表現の最適化が実現され,既存の検索者よりも文書のランク付けが大幅に向上し,マルチフィールド構造における最先端の性能が向上することがわかった。
論文参考訳（メタデータ） (2024-10-26T03:07:22Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
Hypergraph based Understanding for Document Semantic Entity Recognition [65.84258776834524]
我々は,ハイパグラフアテンションを利用したハイパグラフアテンション文書セマンティックエンティティ認識フレームワークHGAを構築し,エンティティ境界とエンティティカテゴリを同時に重視する。 FUNSD, CORD, XFUNDIE で得られた結果は,本手法が意味的エンティティ認識タスクの性能を効果的に向上できることを示す。
論文参考訳（メタデータ） (2024-07-09T14:35:49Z)
DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents [0.0]
文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
論文参考訳（メタデータ） (2024-04-30T04:53:10Z)
Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文参考訳（メタデータ） (2024-02-21T16:22:21Z)
HRDoc: Dataset and Baseline Method Toward Hierarchical Reconstruction of Document Structures [31.868926876151342]
本稿では,NLPおよびCVフィールドに適した新しいタスクとして,文書構造の階層的再構築を提案する。私たちは、2500のマルチページドキュメントと200万近いセマンティックユニットからなるHRDocという大規模なデータセットを構築しました。本稿では,この問題を解決するために,エンコーダデコーダに基づく階層型文書構造解析システム(DSPS)を提案する。
論文参考訳（メタデータ） (2023-03-24T07:23:56Z)
Combining Deep Learning and Reasoning for Address Detection in Unstructured Text Documents [0.0]
本研究では,非構造化文書からアドレスを検索・抽出する手法として,ディープラーニングと推論を組み合わせたハイブリッド手法を提案する。スキャンした文書画像上のアドレス領域の境界を検出するために,視覚的深層学習モデルを用いる。
論文参考訳（メタデータ） (2022-02-07T12:32:00Z)
Evaluation of a Region Proposal Architecture for Multi-task Document Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。 2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文参考訳（メタデータ） (2021-06-22T14:07:27Z)
Rethinking Text Line Recognition Models [57.47147190119394]
2つのデコーダファミリー(コネクショニスト時間分類と変換器)と3つのエンコーダモジュール(双方向LSTM、自己認識、GRCL)を考える。広く使用されているシーンと手書きテキストの公開データセットの精度とパフォーマンスを比較します。より一般的なTransformerベースのモデルとは異なり、このアーキテクチャは任意の長さの入力を処理できる。
論文参考訳（メタデータ） (2021-04-15T21:43:13Z)
DART: Open-Domain Structured Data Record to Text Generation [91.23798751437835]
82k以上のインスタンス(DART)を持つオープンドメイン構造化DAta Record to Text生成データセットであるDARTを提案する。本稿では,テーブルヘッダとテーブルタイトル間の意味的依存関係を利用して,その構造を符号化するテーブルから意味的三重項を抽出する手法を提案する。我々のデータセット構築フレームワークは、オープンドメイン意味解析と対話行動に基づく意味表現タスクからヘテロジニアスソースを効果的に統合する。
論文参考訳（メタデータ） (2020-07-06T16:35:30Z)
Cross-Domain Document Object Detection: Benchmark Suite and Method [71.4339949510586]
文書オブジェクト検出(DOD)は、インテリジェントな文書編集や理解といった下流タスクに不可欠である。我々は、ソースドメインからのラベル付きデータとターゲットドメインからのラベルなしデータのみを用いて、ターゲットドメインの検出器を学習することを目的として、クロスドメインDODを調査した。各データセットに対して、ページイメージ、バウンディングボックスアノテーション、PDFファイル、PDFファイルから抽出されたレンダリング層を提供する。
論文参考訳（メタデータ） (2020-03-30T03:04:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。