論文の概要: Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization
- arxiv url: http://arxiv.org/abs/2310.00937v1
- Date: Mon, 2 Oct 2023 07:05:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-04 23:14:34.295814
- Title: Data Efficient Training of a U-Net Based Architecture for Structured
Documents Localization
- Title(参考訳): 構造化文書ローカライゼーションのためのU-Netアーキテクチャのデータ効率向上
- Authors: Anastasiia Kabeshova, Guillaume Betmont, Julien Lerouge, Evgeny
Stepankevich, Alexis Berg\`es
- Abstract要約: 構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。
本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured documents analysis and recognition are essential for modern online
on-boarding processes, and document localization is a crucial step to achieve
reliable key information extraction. While deep-learning has become the
standard technique used to solve document analysis problems, real-world
applications in industry still face the limited availability of labelled data
and of computational resources when training or fine-tuning deep-learning
models. To tackle these challenges, we propose SDL-Net: a novel U-Net like
encoder-decoder architecture for the localization of structured documents. Our
approach allows pre-training the encoder of SDL-Net on a generic dataset
containing samples of various document classes, and enables fast and
data-efficient fine-tuning of decoders to support the localization of new
document classes. We conduct extensive experiments on a proprietary dataset of
structured document images to demonstrate the effectiveness and the
generalization capabilities of the proposed approach.
- Abstract(参考訳): 構造化文書解析と認識は、現代のオンラインオンボードプロセスにおいて不可欠であり、文書のローカライゼーションは、信頼できる鍵情報抽出を実現するための重要なステップである。
ディープラーニングは文書分析の問題を解決するための標準的な技術になっているが、業界における実世界のアプリケーションは、トレーニングやディープラーニングモデルの微調整において、ラベル付きデータや計算リソースが限られている。
そこで我々は,構造化文書のローカライズのために,エンコーダデコーダのような新しい u-net アーキテクチャである sdl-net を提案する。
提案手法では,各種文書クラスのサンプルを含む汎用データセット上でSDL-Netのエンコーダを事前学習し,デコーダの高速かつ効率的な微調整により,新たな文書クラスのローカライゼーションを支援する。
提案手法の有効性と一般化性を示すため,構造化文書画像のプロプライエタリデータセットについて広範な実験を行った。
関連論文リスト
- U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - Serving Deep Learning Model in Relational Databases [72.72372281808694]
リレーショナルデータ上での深層学習(DL)モデルの実現は、様々な商業分野や科学分野において重要な要件となっている。
最先端のDL-Centricアーキテクチャは、DL計算を専用のDLフレームワークにオフロードします。
UDF-Centricアーキテクチャは、データベースシステム内の1つ以上のテンソル計算をユーザ定義関数(UDF)にカプセル化する。
potentialRelation-Centricアーキテクチャは、演算子による大規模テンソル計算を表現することを目的としている。
論文 参考訳(メタデータ) (2023-10-07T06:01:35Z) - Instruction Tuning for Large Language Models: A Survey [52.86322823501338]
我々は、ITの一般的な方法論、ITデータセットの構築、ITモデルのトレーニング、異なるモダリティ、ドメイン、アプリケーションへのアプリケーションを含む、文献を体系的にレビューする。
また、ITの潜在的な落とし穴とそれに対する批判、および既存の戦略の現在の欠陥を指摘し、実りある研究の道筋を提案する。
論文 参考訳(メタデータ) (2023-08-21T15:35:16Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DIVA-DAF: A Deep Learning Framework for Historical Document Image
Analysis [0.6551090704585544]
本研究では,歴史的文書解析に特化して設計されたオープンソースのディープラーニングフレームワークであるDIVA-DAFを提案する。
データや大規模なデータセットをロードする強力なモジュールの恩恵を受けることで、自分自身のタスクを簡単に作成できます。
データモジュールのおかげで、このフレームワークはモデルのトレーニング時間を大幅に短縮できる。
論文 参考訳(メタデータ) (2022-01-20T17:02:46Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Deep Learning for Technical Document Classification [6.787004826008753]
本稿では,技術文書分類のためのマルチモーダル深層学習アーキテクチャTechDocについて述べる。
トレーニングされたモデルは、テキストと数字の両方で、数百万の現実世界の技術ドキュメントにスケールできる可能性がある。
論文 参考訳(メタデータ) (2021-06-27T16:12:47Z) - Evaluation of a Region Proposal Architecture for Multi-task Document
Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。
2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。
分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文 参考訳(メタデータ) (2021-06-22T14:07:27Z) - Vision-Based Layout Detection from Scientific Literature using Recurrent
Convolutional Neural Networks [12.221478896815292]
本稿では,オブジェクト認識と分類のための畳み込みニューラルネットワークを科学的文献レイアウト検出(SLLD)に適用するためのアプローチを提案する。
SLLDは、いくつかの情報抽出問題の共有サブタスクである。
その結果,事前学習ベースネットワークの微調整による改善が得られた。
論文 参考訳(メタデータ) (2020-10-18T23:50:28Z) - A Privacy-Preserving Distributed Architecture for
Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。
クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文 参考訳(メタデータ) (2020-03-30T15:12:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。