論文の概要: Transformer-Based UNet with Multi-Headed Cross-Attention Skip
Connections to Eliminate Artifacts in Scanned Documents
- arxiv url: http://arxiv.org/abs/2306.02815v1
- Date: Mon, 5 Jun 2023 12:12:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 15:21:18.652622
- Title: Transformer-Based UNet with Multi-Headed Cross-Attention Skip
Connections to Eliminate Artifacts in Scanned Documents
- Title(参考訳): マルチヘッドクロスアテンション・スキップ接続を用いたトランスフォーマーベースUNetによる文書のアーティファクト除去
- Authors: David Kreuzer and Michael Munz
- Abstract要約: Swin Transformerのバックボーンを使用したUNet構造の変更を行い、スキャンされたドキュメントの典型的なアーティファクトを削除する。
合成データのエラー率を最大53.9%削減したテキスト抽出品質の改善をアーカイブする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The extraction of text in high quality is essential for text-based document
analysis tasks like Document Classification or Named Entity Recognition.
Unfortunately, this is not always ensured, as poor scan quality and the
resulting artifacts lead to errors in the Optical Character Recognition (OCR)
process. Current approaches using Convolutional Neural Networks show promising
results for background removal tasks but fail correcting artifacts like
pixelation or compression errors. For general images, Transformer backbones are
getting integrated more frequently in well-known neural network structures for
denoising tasks. In this work, a modified UNet structure using a Swin
Transformer backbone is presented to remove typical artifacts in scanned
documents. Multi-headed cross-attention skip connections are used to more
selectively learn features in respective levels of abstraction. The performance
of this approach is examined regarding compression errors, pixelation and
random noise. An improvement in text extraction quality with a reduced error
rate of up to 53.9% on the synthetic data is archived. The pretrained
base-model can be easily adapted to new artifacts. The cross-attention skip
connections allow to integrate textual information extracted from the encoder
or in form of commands to more selectively control the models outcome. The
latter is shown by means of an example application.
- Abstract(参考訳): 文書分類や名前付きエンティティ認識といったテキストベースの文書分析タスクには,高品質なテキスト抽出が不可欠である。
残念なことに、スキャン品質と結果のアーティファクトが光学文字認識(OCR)プロセスのエラーにつながるため、これは必ずしも確実ではない。
畳み込みニューラルネットワークを用いた現在のアプローチは、背景除去タスクに有望な結果を示すが、ピクセル化や圧縮エラーなどのアーティファクトの修正に失敗する。
一般的な画像の場合、Transformerのバックボーンはタスクを認知するためのよく知られたニューラルネットワーク構造に頻繁に統合されている。
本研究では,Swin Transformerのバックボーンを用いたUNet構造の修正を行い,スキャンした文書の典型的アーティファクトを除去する。
マルチヘッド・クロスアテンション・スキップ接続は、各抽象化レベルの機能をより選択的に学習するために使用される。
本手法の性能は,圧縮誤差,画素化,ランダムノイズについて検討した。
合成データ上でのエラー率を53.9%まで低減したテキスト抽出品質の向上をアーカイブする。
事前訓練されたベースモデルは、新しいアーティファクトに容易に適応できる。
クロスアテンションスキップ接続は、エンコーダから抽出されたテキスト情報やコマンド形式で統合することで、モデル結果をより選択的に制御することができる。
後者はサンプルアプリケーションによって示されます。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - MixTex: Unambiguous Recognition Should Not Rely Solely on Real Data [0.0]
本稿では,低バイアス多言語認識のためのエンドツーエンドOCRモデルであるMixTexを紹介する。
例えば、e-t$ を $e-t$ と誤解釈する場合などである。
本稿では,このバイアスを軽減するために,革新的なデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-06-24T21:38:36Z) - DocDiff: Document Enhancement via Residual Diffusion Models [7.972081359533047]
文書強調問題に特化して設計された拡散型フレームワークであるDocDiffを提案する。
DocDiffは2つのモジュールで構成されている: 粗い予測器(CP)と高周波数残差リファインメント(HRR)モジュール。
事前学習したDocDiffのHRRモジュールは,4.17Mのパラメータしか持たない,プラグアンドプレイで使用可能である。
論文 参考訳(メタデータ) (2023-05-06T01:41:10Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Noise and Edge Based Dual Branch Image Manipulation Detection [9.400611271697302]
本稿では、モデル入力として、改良された制約付き畳み込みによって抽出されたノイズ画像を用いる。
高解像度ブランチとコンテキストブランチで構成されるデュアルブランチネットワークは、アーティファクトのトレースを可能な限りキャプチャするために使用される。
特別に設計された操作エッジ検出モジュールは、これらのアーティファクトをよりよく識別するために、デュアルブランチネットワークに基づいて構築される。
論文 参考訳(メタデータ) (2022-07-02T03:28:51Z) - Unsupervised Structure-Texture Separation Network for Oracle Character
Recognition [70.29024469395608]
オラクルの骨書は上海王朝の中国最古の書記体系であり、考古学や文献学に重要視されている。
そこで本稿では, 連関, 変換, 適応, 認識のためのエンドツーエンド学習フレームワークである構造テクスチャ分離ネットワーク(STSN)を提案する。
論文 参考訳(メタデータ) (2022-05-13T10:27:02Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。