Fugu-MT 論文翻訳(概要): Data Efficient Training of a U-Net Based Architecture for Structured Documents Localization

論文の概要: Data Efficient Training of a U-Net Based Architecture for Structured Documents Localization

arxiv url: http://arxiv.org/abs/2310.00937v1
Date: Mon, 2 Oct 2023 07:05:19 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-04 23:14:34.295814
Title: Data Efficient Training of a U-Net Based Architecture for Structured Documents Localization
Title（参考訳）: 構造化文書ローカライゼーションのためのU-Netアーキテクチャのデータ効率向上
Authors: Anastasiia Kabeshova, Guillaume Betmont, Julien Lerouge, Evgeny Stepankevich, Alexis Berg\`es
Abstract要約: 構造化文書のローカライズのためのエンコーダデコーダアーキテクチャのような新しいU-NetであるSDL-Netを提案する。本手法では,SDL-Netのエンコーダを,各種文書クラスのサンプルを含む汎用データセット上で事前学習することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Structured documents analysis and recognition are essential for modern online on-boarding processes, and document localization is a crucial step to achieve reliable key information extraction. While deep-learning has become the standard technique used to solve document analysis problems, real-world applications in industry still face the limited availability of labelled data and of computational resources when training or fine-tuning deep-learning models. To tackle these challenges, we propose SDL-Net: a novel U-Net like encoder-decoder architecture for the localization of structured documents. Our approach allows pre-training the encoder of SDL-Net on a generic dataset containing samples of various document classes, and enables fast and data-efficient fine-tuning of decoders to support the localization of new document classes. We conduct extensive experiments on a proprietary dataset of structured document images to demonstrate the effectiveness and the generalization capabilities of the proposed approach.
Abstract（参考訳）: 構造化文書解析と認識は、現代のオンラインオンボードプロセスにおいて不可欠であり、文書のローカライゼーションは、信頼できる鍵情報抽出を実現するための重要なステップである。ディープラーニングは文書分析の問題を解決するための標準的な技術になっているが、業界における実世界のアプリケーションは、トレーニングやディープラーニングモデルの微調整において、ラベル付きデータや計算リソースが限られている。そこで我々は,構造化文書のローカライズのために,エンコーダデコーダのような新しい u-net アーキテクチャである sdl-net を提案する。提案手法では,各種文書クラスのサンプルを含む汎用データセット上でSDL-Netのエンコーダを事前学習し,デコーダの高速かつ効率的な微調整により,新たな文書クラスのローカライゼーションを支援する。提案手法の有効性と一般化性を示すため,構造化文書画像のプロプライエタリデータセットについて広範な実験を行った。

関連論文リスト

LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。 LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文参考訳（メタデータ） (2026-01-05T23:23:16Z)
DAVE: A VLM Vision Encoder for Document Understanding and Web Agents [50.05119785399764]
視覚言語モデル(VLM)のための視覚エンコーダDAVEを紹介する。私たちのトレーニングパイプラインは、ドキュメントやWebイメージの大規模なアノテーションの必要性を回避するために、豊富なラベルのないデータを活用するように設計されています。我々は、アンサンブルトレーニングを使用して、事前訓練されたジェネリストエンコーダの機能を、独自のドキュメントとWeb固有の表現で融合する。
論文参考訳（メタデータ） (2025-12-19T04:09:24Z)
QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文参考訳（メタデータ） (2025-04-03T18:47:16Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
Prompting Encoder Models for Zero-Shot Classification: A Cross-Domain Study in Italian [75.94354349994576]
本稿では,より小型のドメイン固有エンコーダ LM と,特殊なコンテキストにおける性能向上手法の併用の可能性について検討する。本研究は, イタリアの官僚的・法的言語に焦点をあて, 汎用モデルと事前学習型エンコーダのみのモデルの両方を実験する。その結果, 事前学習したモデルでは, 一般知識の頑健性が低下する可能性があるが, ドメイン固有のタスクに対して, ゼロショット設定においても, より優れた適応性を示すことがわかった。
論文参考訳（メタデータ） (2024-07-30T08:50:16Z)
U-DIADS-Bib: a full and few-shot pixel-precise dataset for document layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文参考訳（メタデータ） (2024-01-16T15:11:18Z)
Information Extraction from Unstructured data using Augmented-AI and Computer Vision [0.0]
本稿では,A2I(Augmented Intelligence)とコンピュータビジョン,自然言語処理技術を組み合わせた情報抽出フレームワークを提案する。本稿では,物体検出にディープラーニングアーキテクチャを活用することによって,従来の手法の限界に対処する。提案手法は,多種多様な文書形式から構造化情報を抽出する際の精度と効率の向上を実証する。
論文参考訳（メタデータ） (2023-12-15T15:27:41Z)
GlobalDoc: A Cross-Modal Vision-Language Framework for Real-World Document Image Retrieval and Classification [8.880856137902947]
我々は、自己教師型で事前訓練されたクロスモーダルトランスフォーマーベースのアーキテクチャであるGlobalDocを紹介する。 GlobalDocは、言語と視覚表現を統合することによって、よりリッチなセマンティックな概念の学習を改善する。適切な評価のために,Few-Shot Document Image Classification (DIC)とContent-based Document Image Retrieval (DIR)の2つの新しい文書レベル下流VDUタスクを提案する。
論文参考訳（メタデータ） (2023-09-11T18:35:14Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)
DIVA-DAF: A Deep Learning Framework for Historical Document Image Analysis [0.6551090704585544]
本研究では,歴史的文書解析に特化して設計されたオープンソースのディープラーニングフレームワークであるDIVA-DAFを提案する。データや大規模なデータセットをロードする強力なモジュールの恩恵を受けることで、自分自身のタスクを簡単に作成できます。データモジュールのおかげで、このフレームワークはモデルのトレーニング時間を大幅に短縮できる。
論文参考訳（メタデータ） (2022-01-20T17:02:46Z)
One-shot Key Information Extraction from Document with Deep Partial Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。 KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文参考訳（メタデータ） (2021-09-26T07:45:53Z)
Deep Learning for Technical Document Classification [6.787004826008753]
本稿では,技術文書分類のためのマルチモーダル深層学習アーキテクチャTechDocについて述べる。トレーニングされたモデルは、テキストと数字の両方で、数百万の現実世界の技術ドキュメントにスケールできる可能性がある。
論文参考訳（メタデータ） (2021-06-27T16:12:47Z)
Evaluation of a Region Proposal Architecture for Multi-task Document Layout Analysis [0.685316573653194]
Mask-RCNNアーキテクチャは、ベースライン検出と領域分割の問題に対処するために設計されている。 2つの手書きテキストデータセットと1つの手書き音楽データセットに関する実験結果を示す。分析したアーキテクチャは有望な結果をもたらし、3つのデータセットすべてで最先端のテクニックよりも優れています。
論文参考訳（メタデータ） (2021-06-22T14:07:27Z)
A Privacy-Preserving Distributed Architecture for Deep-Learning-as-a-Service [68.84245063902908]
本稿では,ディープラーニング・アズ・ア・サービスのための分散アーキテクチャを提案する。クラウドベースのマシンとディープラーニングサービスを提供しながら、ユーザの機密データを保存できる。
論文参考訳（メタデータ） (2020-03-30T15:12:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。