論文の概要: Augraphy: A Data Augmentation Library for Document Images
- arxiv url: http://arxiv.org/abs/2208.14558v2
- Date: Fri, 24 Mar 2023 21:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 02:44:07.679810
- Title: Augraphy: A Data Augmentation Library for Document Images
- Title(参考訳): Augraphy: ドキュメントイメージのためのデータ拡張ライブラリ
- Authors: Alexander Groleau, Kok Wei Chee, Stefan Larson, Samay Maini, Jonathan
Boarman
- Abstract要約: Augraphyはデータ拡張パイプラインを構築するためのPythonライブラリである。
標準的なオフィス操作によって変更されたように見えるクリーンなドキュメントイメージの拡張版を作成するための戦略を提供する。
- 参考スコア(独自算出の注目度): 59.457999432618614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Augraphy, a Python library for constructing data
augmentation pipelines which produce distortions commonly seen in real-world
document image datasets. Augraphy stands apart from other data augmentation
tools by providing many different strategies to produce augmented versions of
clean document images that appear as if they have been altered by standard
office operations, such as printing, scanning, and faxing through old or dirty
machines, degradation of ink over time, and handwritten markings. This paper
discusses the Augraphy tool, and shows how it can be used both as a data
augmentation tool for producing diverse training data for tasks such as
document denoising, and also for generating challenging test data to evaluate
model robustness on document image modeling tasks.
- Abstract(参考訳): 本稿では,実際の文書画像データセットによく見られる歪みを生成するデータ拡張パイプラインを構築するためのPythonライブラリであるAugraphyを紹介する。
Augraphyは、印刷、スキャン、古いマシンや汚れたマシンによるファックス化、時間の経過とともにインクの劣化、手書きのマーキングなど、標準的なオフィス操作によって変更されているように見えるクリーンなドキュメントイメージの強化版を作成するための多くの戦略を提供することによって、他のデータ拡張ツールとは異なっている。
本稿では,Aaugraphyツールについて論じ,文書記述などのタスクのための多様なトレーニングデータを生成するためのデータ拡張ツールや,文書画像モデリングタスクにおけるモデルロバスト性を評価するための挑戦的なテストデータを生成するツールとしての利用方法を紹介する。
関連論文リスト
- Automatic Recognition of Learning Resource Category in a Digital Library [6.865460045260549]
本稿では,文書画像分類のためのヘテロジニアス学習資源(HLR)データセットを提案する。
このアプローチでは、個々の学習リソースを構成文書イメージ(シート)に分解する。
これらの画像はOCRツールを通じて処理され、テキスト表現を抽出する。
論文 参考訳(メタデータ) (2023-11-28T07:48:18Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - ShabbyPages: A Reproducible Document Denoising and Binarization Dataset [59.457999432618614]
ShabbyPagesは新しいドキュメントイメージデータセットである。
本稿では,ShabbyPagesの作成プロセスについて議論し,人間の知覚力の高い実雑音の特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。
論文 参考訳(メタデータ) (2023-03-16T14:19:50Z) - DiT: Self-supervised Pre-training for Document Image Transformer [85.78807512344463]
自己教師付き文書画像変換モデルであるDiTを提案する。
さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。
実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2022-03-04T15:34:46Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。