論文の概要: BusiNet -- a Light and Fast Text Detection Network for Business
Documents
- arxiv url: http://arxiv.org/abs/2207.01220v1
- Date: Mon, 4 Jul 2022 06:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:32:56.244258
- Title: BusiNet -- a Light and Fast Text Detection Network for Business
Documents
- Title(参考訳): BusiNet - ビジネスドキュメントのための軽量かつ高速なテキスト検出ネットワーク
- Authors: Oshri Naparstek, Ophir Azulai, Daniel Rotman, Yevgeny Burshtein, Peter
Staar, Udi Barzelay
- Abstract要約: 本稿では,ビジネス文書の OCR を目的とした検出ネットワーク BusiNet を提案する。
BusiNetは高速かつ軽量に設計されており、ローカルでプライバシー問題を防ぐことができる。
このモデルは、敵の訓練戦略を採用することにより、目に見えない雑音に対して頑健に作られている。
- 参考スコア(独自算出の注目度): 8.318686824572803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For digitizing or indexing physical documents, Optical Character Recognition
(OCR), the process of extracting textual information from scanned documents, is
a vital technology. When a document is visually damaged or contains non-textual
elements, existing technologies can yield poor results, as erroneous detection
results can greatly affect the quality of OCR. In this paper we present a
detection network dubbed BusiNet aimed at OCR of business documents. Business
documents often include sensitive information and as such they cannot be
uploaded to a cloud service for OCR. BusiNet was designed to be fast and light
so it could run locally preventing privacy issues. Furthermore, BusiNet is
built to handle scanned document corruption and noise using a specialized
synthetic dataset. The model is made robust to unseen noise by employing
adversarial training strategies. We perform an evaluation on publicly available
datasets demonstrating the usefulness and broad applicability of our model.
- Abstract(参考訳): 物理的文書のデジタル化やインデックス化には,スキャンした文書からテキスト情報を抽出するocr(optical character recognition)が不可欠である。
文書が視覚的に損傷を受けたり、非テクスト要素を含む場合、誤検出結果がOCRの品質に大きく影響を与えるため、既存の技術は貧弱な結果をもたらす可能性がある。
本稿では,ビジネス文書の OCR を目的とした検出ネットワーク BusiNet を提案する。
ビジネス文書にはセンシティブな情報が含まれており、OCRのクラウドサービスにアップロードすることはできない。
BusiNetは高速かつ軽量に設計されており、ローカルでプライバシー問題を防ぐことができる。
さらに、BusiNetは、特殊な合成データセットを使用して、スキャンされた文書の破損とノイズを処理するために構築されている。
このモデルは、敵対的訓練戦略を駆使して、無音化にロバストである。
本モデルの有用性と適用性を示すために,公開データセットの評価を行った。
関連論文リスト
- Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - CTP-Net: Character Texture Perception Network for Document Image Forgery
Localization [28.48117743313255]
文書画像中の偽領域をローカライズする文字テクスチャ知覚ネットワーク(CTP-Net)を提案する。
文書画像のセマンティクスを持つ文字は非常に脆弱であるため、偽のトレースをキャプチャすることが偽の領域をローカライズする鍵となる。
The proposed-Net can be localize multi-scale forged area in document images, and outform out of the-of-the-art forgery localization methods。
論文 参考訳(メタデータ) (2023-08-04T06:37:28Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - EraseNet: A Recurrent Residual Network for Supervised Document Cleaning [0.0]
本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。
本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。
論文 参考訳(メタデータ) (2022-10-03T04:23:25Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Detection Masking for Improved OCR on Noisy Documents [8.137198664755596]
本稿では,文書上でのOCRの品質向上を目的として,マスキングシステムによる検出ネットワークの改良について述べる。
本手法の有用性と適用性を示すために,公開データセット上で統一的な評価を行う。
論文 参考訳(メタデータ) (2022-05-17T11:59:18Z) - Fourier Document Restoration for Robust Document Dewarping and
Recognition [73.44057202891011]
本稿では、異なる歪みで文書を復元できるフーリエ文書復元ネットワークであるFDRNetについて述べる。
ドキュメントをフレキシブルなThin-Plate Spline変換でデワープし、トレーニング時に変形アノテーションを必要とせずに、様々な変形を効果的に処理できる。
これは、デウォープとテキスト認識の両方のタスクにおいて、最先端の技術をはるかに上回る。
論文 参考訳(メタデータ) (2022-03-18T12:39:31Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。