論文の概要: DocAligner: Annotating Real-world Photographic Document Images by Simply
Taking Pictures
- arxiv url: http://arxiv.org/abs/2306.05749v2
- Date: Mon, 12 Jun 2023 04:03:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 11:27:23.321208
- Title: DocAligner: Annotating Real-world Photographic Document Images by Simply
Taking Pictures
- Title(参考訳): DocAligner:簡単に写真を撮って実世界の写真ドキュメント画像に注釈をつける
- Authors: Jiaxin Zhang, Bangdong Chen, Hiuyi Cheng, Fengjun Guo, Kai Ding,
Lianwen Jin
- Abstract要約: そこで本稿では,手作業によるアノテーション処理を簡易に表現するDocAlignerを提案する。
写真用文書画像とその清潔な画像との密接な対応を確立することで、これを実現する。
ドキュメントイメージの特徴を考えると、DocAlignerはいくつかの革新的な特徴を取り入れている。
- 参考スコア(独自算出の注目度): 24.76258692552673
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a growing interest in research concerning document
image analysis and recognition in photographic scenarios. However, the lack of
labeled datasets for this emerging challenge poses a significant obstacle, as
manual annotation can be time-consuming and impractical. To tackle this issue,
we present DocAligner, a novel method that streamlines the manual annotation
process to a simple step of taking pictures. DocAligner achieves this by
establishing dense correspondence between photographic document images and
their clean counterparts. It enables the automatic transfer of existing
annotations in clean document images to photographic ones and helps to
automatically acquire labels that are unavailable through manual labeling.
Considering the distinctive characteristics of document images, DocAligner
incorporates several innovative features. First, we propose a non-rigid
pre-alignment technique based on the document's edges, which effectively
eliminates interference caused by significant global shifts and repetitive
patterns present in document images. Second, to handle large shifts and ensure
high accuracy, we introduce a hierarchical aligning approach that combines
global and local correlation layers. Furthermore, considering the importance of
fine-grained elements in document images, we present a details recurrent
refinement module to enhance the output in a high-resolution space. To train
DocAligner, we construct a synthetic dataset and introduce a self-supervised
learning approach to enhance its robustness for real-world data. Through
extensive experiments, we demonstrate the effectiveness of DocAligner and the
acquired dataset. Datasets and codes will be publicly available.
- Abstract(参考訳): 近年,写真シナリオにおける文書画像解析と認識に関する研究への関心が高まっている。
しかし、この新たな課題に対するラベル付きデータセットの欠如は、手動のアノテーションが時間がかかり実用的でないため、大きな障害となる。
そこで本稿では,手作業によるアノテーション処理を簡易な撮影手順に合理化する新しい手法であるdocalignerを提案する。
DocAlignerは、写真用文書画像とそのクリーンなものとの密接な対応を確立することで、これを実現する。
クリーンな文書画像から写真への既存のアノテーションの自動転送を可能にし、手動ラベリングによって利用できないラベルを自動的に取得するのに役立つ。
ドキュメントイメージの特徴を考えると、DocAlignerはいくつかの革新的な特徴を取り入れている。
まず,文書のエッジに基づく非厳密な事前アライメント手法を提案し,文書画像に現れる大きなグローバルシフトや反復パターンによる干渉を効果的に除去する。
第2に,大きなシフトを処理し,高い精度を確保するために,グローバル層とローカル層を組み合わせた階層的アライメント手法を導入する。
さらに,文書画像における細粒度要素の重要性を考慮し,高解像度空間における出力を高めるための細部再帰改善モジュールを提案する。
DocAlignerを訓練するために、合成データセットを構築し、実世界のデータに対する堅牢性を高めるための自己教師付き学習アプローチを導入する。
大規模な実験を通じて、DocAlignerと取得したデータセットの有効性を示す。
データセットとコードは公開されます。
関連論文リスト
- DocXplain: A Novel Model-Agnostic Explainability Method for Document Image Classification [5.247930659596986]
本稿では,高解釈性特徴属性マップの生成に特化して設計された新しいモデルに依存しない説明可能性手法であるDocXplainを紹介する。
4つの異なる評価指標を用いて,文書画像分類の文脈において提案手法を広範囲に評価した。
著者の知識を最大限に活用するために、本研究は、特に文書画像に適した、モデルに依存しない属性に基づく説明可能性法を初めて提示する。
論文 参考訳(メタデータ) (2024-07-04T10:59:15Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Augraphy: A Data Augmentation Library for Document Images [59.457999432618614]
Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
論文 参考訳(メタデータ) (2022-08-30T22:36:19Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - DocSynth: A Layout Guided Approach for Controllable Document Image
Synthesis [16.284895792639137]
本稿では,Doc Synthと呼ばれる新しい手法を用いて,所定のレイアウトに基づいて文書画像を自動的に合成する手法を提案する。
本研究では,ユーザによる参照として空間的レイアウト(オブジェクトカテゴリ付きバウンディングボックス)を考慮し,提案するDoc Synthモデルを用いて,現実的な文書画像の集合を生成する。
その結果,本モデルでは,複数のオブジェクトを用いて,現実的かつ多様な文書画像を生成することが可能であることが示唆された。
論文 参考訳(メタデータ) (2021-07-06T14:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。