論文の概要: Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization
- arxiv url: http://arxiv.org/abs/2310.00937v1
- Date: Mon, 2 Oct 2023 07:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:14:34.295814
- Title: Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization
- Title(参考訳): 構造化文書ローカライゼーションのためのU-Netアーキテクチャのデータ効率向上
- Authors: Anastasiia Kabeshova, Guillaume Betmont, Julien Lerouge, Evgeny
Stepankevich, Alexis Berg\`es
- Abstract要約: 構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured documents analysis and recognition are essential for modern online
on-boarding processes, and document localization is a crucial step to achieve
reliable key information extraction. While deep-learning has become the
standard technique used to solve document analysis problems, real-world
applications in industry still face the limited availability of labelled data
and of computational resources when training or fine-tuning deep-learning
models. To tackle these challenges, we propose SDL-Net: a novel U-Net like
encoder-decoder architecture for the localization of structured documents. Our
approach allows pre-training the encoder of SDL-Net on a generic dataset
containing samples of various document classes, and enables fast and
data-efficient fine-tuning of decoders to support the localization of new
document classes. We conduct extensive experiments on a proprietary dataset of
structured document images to demonstrate the effectiveness and the
generalization capabilities of the proposed approach.
- Abstract(参考訳): 構造化文書解析と認識は、現代のオンラインオンボードプロセスにおいて不可欠であり、文書のローカライゼーションは、信頼できる鍵情報抽出を実現するための重要なステップである。
ディープラーニングは文書分析の問題を解決するための標準的な技術になっているが、業界における実世界のアプリケーションは、トレーニングやディープラーニングモデルの微調整において、ラベル付きデータや計算リソースが限られている。
そこで我々は,構造化文書のローカライズのために,エンコーダデコーダのような新しい u-net アーキテクチャである sdl-net を提案する。
提案手法では,各種文書クラスのサンプルを含む汎用データセット上でSDL-Netのエンコーダを事前学習し,デコーダの高速かつ効率的な微調整により,新たな文書クラスのローカライゼーションを支援する。
提案手法の有効性と一般化性を示すため,構造化文書画像のプロプライエタリデータセットについて広範な実験を行った。
関連論文リスト
- Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。
生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。
我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文 参考訳(メタデータ) (2024-10-02T20:48:28Z) - Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。
本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。
その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:50:16Z) - U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - GlobalDoc: A Cross-Modal Vision-Language Framework for Real-World Document Image Retrieval and Classification [8.880856137902947]
我々は、自己教師型で事前訓練されたクロスモーダルトランスフォーマーベースのアーキテクチャであるGlobalDocを紹介する。
GlobalDocは、言語と視覚表現を統合することによって、よりリッチなセマンティックな概念の学習を改善する。
適切な評価のために,Few-Shot Document Image Classification (DIC)とContent-based Document Image Retrieval (DIR)の2つの新しい文書レベル下流VDUタスクを提案する。
論文 参考訳(メタデータ) (2023-09-11T18:35:14Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DIVA-DAF: A Deep Learning Framework for Historical Document Image
Analysis [0.6551090704585544]
本研究では,歴史的文書解析に特化して設計されたオープンソースのディープラーニングフレームワークであるDIVA-DAFを提案する。
データや大規模なデータセットをロードする強力なモジュールの恩恵を受けることで、自分自身のタスクを簡単に作成できます。
データモジュールのおかげで、このフレームワークはモデルのトレーニング時間を大幅に短縮できる。
論文 参考訳(メタデータ) (2022-01-20T17:02:46Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Deep Learning for Technical Document Classification [6.787004826008753]
本稿では,技術文書分類のためのマルチモーダル深層学習アーキテクチャTechDocについて述べる。
トレーニングされたモデルは、テキストと数字の両方で、数百万の現実世界の技術ドキュメントにスケールできる可能性がある。
論文 参考訳(メタデータ) (2021-06-27T16:12:47Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。