論文の概要: UnSupDLA: Towards Unsupervised Document Layout Analysis
- arxiv url: http://arxiv.org/abs/2406.06236v1
- Date: Mon, 10 Jun 2024 13:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 13:58:00.150062
- Title: UnSupDLA: Towards Unsupervised Document Layout Analysis
- Title(参考訳): UnSupDLA: 教師なしドキュメントレイアウト分析を目指して
- Authors: Talha Uddin Sheikh, Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Muhammad Zeshan Afzal,
- Abstract要約: 重要ではあるがしばしば見落とされがちな問題は、レイアウト解析に必要なラベル付きデータの不足である。
ラベルを使わずにネットワークをトレーニングするために設計された文書レイアウトを,視覚に基づく手法を用いて分析する。
- 参考スコア(独自算出の注目度): 11.574592219976823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document layout analysis is a key area in document research, involving techniques like text mining and visual analysis. Despite various methods developed to tackle layout analysis, a critical but frequently overlooked problem is the scarcity of labeled data needed for analyses. With the rise of internet use, an overwhelming number of documents are now available online, making the process of accurately labeling them for research purposes increasingly challenging and labor-intensive. Moreover, the diversity of documents online presents a unique set of challenges in maintaining the quality and consistency of these labels, further complicating document layout analysis in the digital era. To address this, we employ a vision-based approach for analyzing document layouts designed to train a network without labels. Instead, we focus on pre-training, initially generating simple object masks from the unlabeled document images. These masks are then used to train a detector, enhancing object detection and segmentation performance. The model's effectiveness is further amplified through several unsupervised training iterations, continuously refining its performance. This approach significantly advances document layout analysis, particularly precision and efficiency, without labels.
- Abstract(参考訳): 文書レイアウト分析は文書研究において重要な領域であり、テキストマイニングやビジュアル分析のような技術を含んでいる。
レイアウト解析に対処するために様々な手法が開発されたが、重要ではあるがしばしば見落とされがちな問題は、分析に必要なラベル付きデータの不足である。
インターネットの普及に伴い、膨大な数の文書がオンラインで入手できるようになり、研究目的のために正確にラベル付けするプロセスはますます難しくなり、労働集約化が進んでいる。
さらに、オンライン文書の多様性は、これらのラベルの品質と一貫性を維持する上で、ユニークな課題の集合を示し、デジタル時代の文書レイアウト解析をさらに複雑にしている。
そこで我々は,ラベルを使わずにネットワークをトレーニングするために設計された文書レイアウトを,視覚に基づく手法を用いて分析する。
代わりに、未ラベルのドキュメントイメージから、最初は単純なオブジェクトマスクを生成する事前トレーニングに重点を置いています。
これらのマスクは検出器の訓練に使用され、物体の検出とセグメンテーション性能を向上させる。
モデルの有効性は、教師なしのトレーニングイテレーションを通じてさらに増幅され、そのパフォーマンスを継続的に改善する。
このアプローチは文書レイアウト解析、特に精度と効率をラベルなしで大幅に向上させる。
関連論文リスト
- U-DIADS-Bib: a full and few-shot pixel-precise dataset for document
layout analysis of ancient manuscripts [9.76730765089929]
U-DIADS-Bibは、コンピュータビジョンと人文科学の分野の専門家の密接なコラボレーションのために開発された、新しい、ピクセル精度、非重複性、ノイズレス文書レイアウト分析データセットである。
そこで我々は,手動アノテーションの時間的負担を軽減するために,新しい,コンピュータ支援型セグメンテーションパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-16T15:11:18Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Document AI: A Comparative Study of Transformer-Based, Graph-Based
Models, and Convolutional Neural Networks For Document Layout Analysis [3.231170156689185]
Document AIは、自然言語処理とコンピュータビジョン技術を活用して、文書を自動的に分析することを目的としている。
Document AIの主要なタスクの1つはドキュメントレイアウト分析であり、レイアウト、画像、テキストの内容と空間的関係を解釈することでドキュメントページを構造化する。
論文 参考訳(メタデータ) (2023-08-29T16:58:03Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - Efficient few-shot learning for pixel-precise handwritten document
layout analysis [11.453393410516991]
レイアウト解析のための効率的な数ショット学習フレームワークを提案する。
公開されているDIVA-HisDBデータセット上で、最先端の完全な教師付きメソッドに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-27T16:03:52Z) - Metrics reloaded: Recommendations for image analysis validation [59.60445111432934]
メトリクスのリロード(Metrics Reloaded)は、メトリクスの問題を意識した選択において研究者を導く包括的なフレームワークである。
このフレームワークは多段階のDelphiプロセスで開発され、問題指紋という新しい概念に基づいている。
問題指紋に基づいて、ユーザは適切なバリデーションメトリクスを選択して適用するプロセスを通じてガイドされる。
論文 参考訳(メタデータ) (2022-06-03T15:56:51Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Human-in-the-Loop Disinformation Detection: Stance, Sentiment, or
Something Else? [93.91375268580806]
政治とパンデミックは、機械学習対応の偽ニュース検出アルゴリズムの開発に十分な動機を与えている。
既存の文献は、主に完全自動化されたケースに焦点を当てているが、その結果得られた技術は、軍事応用に必要な様々なトピック、ソース、時間スケールに関する偽情報を確実に検出することはできない。
既に利用可能なアナリストを人間のループとして活用することにより、感情分析、アスペクトベースの感情分析、姿勢検出といった標準的な機械学習技術は、部分的に自動化された偽情報検出システムに使用するためのもっとも有効な方法となる。
論文 参考訳(メタデータ) (2021-11-09T13:30:34Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - Active Learning from Crowd in Document Screening [76.9545252341746]
我々は、文書を評価し、それらを効率的にスクリーニングする機械学習分類器のセットの構築に注力する。
そこで本研究では,多ラベル能動学習スクリーニング技術である目的認識サンプリングを提案する。
目的認識サンプリングは,アートアクティブラーニングサンプリングの手法を著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2020-11-11T16:17:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。