論文の概要: Augraphy: A Data Augmentation Library for Document Images
- arxiv url: http://arxiv.org/abs/2208.14558v1
- Date: Tue, 30 Aug 2022 22:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:28:59.808437
- Title: Augraphy: A Data Augmentation Library for Document Images
- Title(参考訳): Augraphy: ドキュメントイメージのためのデータ拡張ライブラリ
- Authors: Samay Maini, Alexander Groleau, Kok Wei Chee, Stefan Larson, Jonathan
Boarman
- Abstract要約: Augraphyは、ドキュメントイメージのリアルなデータ拡張戦略を指向したPythonパッケージである。
ドキュメントのデノイズのようなタスクのための多様なトレーニングデータを生成するために使用できる。
また、文書画像モデリングタスクにおけるモデルロバスト性を評価するために、挑戦的なテストデータを生成するためにも使用できる。
- 参考スコア(独自算出の注目度): 59.457999432618614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces Augraphy, a Python package geared toward realistic data
augmentation strategies for document images. Augraphy uses many different
augmentation strategies to produce augmented versions of clean document images
that appear as if they have been distorted from standard office operations,
such as printing, scanning, and faxing through old or dirty machines,
degradation of ink over time, and handwritten markings. Augraphy can be used
both as a data augmentation tool for (1) producing diverse training data for
tasks such as document de-noising, and (2) generating challenging test data for
evaluating model robustness on document image modeling tasks. This paper
provides an overview of Augraphy and presents three example robustness testing
use-cases of Augraphy.
- Abstract(参考訳): 本稿では,文書画像のリアルなデータ拡張戦略を目的としたPythonパッケージAaugraphyを紹介する。
Augraphyは、多くの異なる拡張戦略を使用して、印刷、スキャン、古いまたは汚い機械によるファックス化、時間の経過とともにインクの劣化、手書きのマーキングなど、標準的なオフィス操作から歪んだように見えるクリーンドキュメントイメージの強化版を作成する。
augraphyは、(1)文書の非ノイズ化などのタスクのための多様なトレーニングデータを生成すること、(2)文書画像モデリングタスクにおけるモデルのロバスト性を評価するための挑戦的なテストデータを生成するためのデータ拡張ツールとして使用できる。
本稿では,augraphyの概要と,augraphyのロバストネステストの例を3つ紹介する。
関連論文リスト
- Automatic Recognition of Learning Resource Category in a Digital Library [6.865460045260549]
本稿では,文書画像分類のためのヘテロジニアス学習資源(HLR)データセットを提案する。
このアプローチでは、個々の学習リソースを構成文書イメージ(シート)に分解する。
これらの画像はOCRツールを通じて処理され、テキスト表現を抽出する。
論文 参考訳(メタデータ) (2023-11-28T07:48:18Z) - Prompt me a Dataset: An investigation of text-image prompting for
historical image dataset creation using foundation models [0.9065034043031668]
基礎モデルを用いた歴史資料からの画像抽出のためのパイプラインを提案する。
我々は,テキスト画像のプロンプトと,それらが複雑度の異なる人文科学データセットに与える影響を評価する。
論文 参考訳(メタデータ) (2023-09-04T15:37:03Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - ShabbyPages: A Reproducible Document Denoising and Binarization Dataset [59.457999432618614]
ShabbyPagesは新しいドキュメントイメージデータセットである。
本稿では,ShabbyPagesの作成プロセスについて議論し,人間の知覚力の高い実雑音の特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。
論文 参考訳(メタデータ) (2023-03-16T14:19:50Z) - DiT: Self-supervised Pre-training for Document Image Transformer [85.78807512344463]
自己教師付き文書画像変換モデルであるDiTを提案する。
さまざまなビジョンベースのDocument AIタスクでは,バックボーンネットワークとしてDiTを活用しています。
実験結果から, 自己教師付き事前訓練型DiTモデルにより, 新たな最先端結果が得られることが示された。
論文 参考訳(メタデータ) (2022-03-04T15:34:46Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Multiple Document Datasets Pre-training Improves Text Line Detection
With Deep Neural Networks [2.5352713493505785]
本稿では,文書レイアウト解析タスクのための完全畳み込みネットワークを提案する。
Doc-UFCNは、歴史的文書から物体を検出するためにゼロから訓練されたU字型モデルを用いています。
Doc-UFCNが様々なデータセットの最先端のメソッドより優れていることを示す。
論文 参考訳(メタデータ) (2020-12-28T09:48:33Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z) - From ImageNet to Image Classification: Contextualizing Progress on
Benchmarks [99.19183528305598]
ImageNet作成プロセスにおける特定の設計選択が、結果のデータセットの忠実性に与える影響について検討する。
私たちの分析では、ノイズの多いデータ収集パイプラインが、結果のベンチマークと、それがプロキシとして機能する実世界のタスクとの間に、体系的なミスアライメントをもたらす可能性があることを指摘しています。
論文 参考訳(メタデータ) (2020-05-22T17:39:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。