論文の概要: A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation
- arxiv url: http://arxiv.org/abs/2004.01317v1
- Date: Fri, 3 Apr 2020 00:57:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-17 05:05:46.845798
- Title: A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation
- Title(参考訳): 文書画像分割のための高速完全オクターブ畳み込みニューラルネットワーク
- Authors: Ricardo Batista das Neves Junior, Luiz Felipe Ver\c{c}osa, David
Mac\^edo, Byron Leite Dantas Bezerra, Cleber Zanchettin
- Abstract要約: ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。
本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
- 参考スコア(独自算出の注目度): 1.8426817621478804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Know Your Customer (KYC) and Anti Money Laundering (AML) are worldwide
practices to online customer identification based on personal identification
documents, similarity and liveness checking, and proof of address. To answer
the basic regulation question: are you whom you say you are? The customer needs
to upload valid identification documents (ID). This task imposes some
computational challenges since these documents are diverse, may present
different and complex backgrounds, some occlusion, partial rotation, poor
quality, or damage. Advanced text and document segmentation algorithms were
used to process the ID images. In this context, we investigated a method based
on U-Net to detect the document edges and text regions in ID images. Besides
the promising results on image segmentation, the U-Net based approach is
computationally expensive for a real application, since the image segmentation
is a customer device task. We propose a model optimization based on Octave
Convolutions to qualify the method to situations where storage, processing, and
time resources are limited, such as in mobile and robotic applications. We
conducted the evaluation experiments in two new datasets CDPhotoDataset and
DTDDataset, which are composed of real ID images of Brazilian documents. Our
results showed that the proposed models are efficient to document segmentation
tasks and portable.
- Abstract(参考訳): Know Your Customer (KYC) と Anti Money Laundering (AML) は、個人識別文書、類似性、生身の確認、住所の証明に基づく、世界中のオンライン顧客識別のプラクティスである。
基本的な規制問題に答えるには、あなたが誰だと言うのか?
顧客は有効な識別文書(ID)をアップロードする必要がある。
このタスクは、これらの文書は多様であり、異なる複雑な背景、いくつかの閉塞、部分的な回転、品質の低下、損傷を示す可能性があるため、いくつかの計算上の課題を課している。
高度なテキストと文書のセグメンテーションアルゴリズムがID画像の処理に使われた。
そこで本研究では,U-Netに基づく文書のエッジとテキスト領域の検出手法について検討した。
イメージセグメンテーションの有望な結果に加えて、イメージセグメンテーションは顧客デバイスタスクであるため、U-Netベースのアプローチは実際のアプリケーションでは計算コストがかかる。
本研究では,オクタベ・コンボリューションに基づくモデル最適化を提案し,モバイルアプリケーションやロボットアプリケーションなど,ストレージ,処理,時間資源が制限されている状況に適応する手法を提案する。
我々はブラジルの文書の実際のID画像からなるCDPhotoDatasetとDTDDatasetの2つの新しいデータセットで評価実験を行った。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
関連論文リスト
- LookupForensics: A Large-Scale Multi-Task Dataset for Multi-Phase Image-Based Fact Verification [15.616232457341097]
これは、ジャーナリストが使用するテキストベースの事実チェックシステムに由来する名前です。
我々は,手作りの画像編集や機械学習による操作を多用した,この新しいタスクに適した大規模なデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-26T09:15:29Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - A Layer-Wise Tokens-to-Token Transformer Network for Improved Historical
Document Image Enhancement [13.27528507177775]
Tokens-to-token Vision Transformer に基づく新しい文書バイナライゼーション・エンコーダ・デコーダアーキテクチャである textbfT2T-BinFormer を提案する。
様々なDIBCOおよびH-DIBCOベンチマークの実験により、提案モデルは既存のCNNおよびViTベースの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-12-06T23:01:11Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models [37.36999826208225]
本稿では,ゼロショット・イン・ディストリビューション(ID)検出と呼ばれる新しい問題設定を提案する。
我々は、IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し、IDオブジェクトを持たないイメージをOODイメージとしてトレーニングせずに識別する。
本稿では,CLIP機能のグローバルおよびローカルな視覚テキストアライメントに基づく,シンプルで効果的な概念マッチング手法であるGlobal-Local Concept Matchingを提案する。
論文 参考訳(メタデータ) (2023-04-10T11:35:42Z) - ALADIN: Distilling Fine-grained Alignment Scores for Efficient
Image-Text Matching and Retrieval [51.588385824875886]
クロスモーダル検索は、与えられたクエリテキストまたはバイヴァーサに関連する画像を見つけることで構成される。
近年の多くの手法が画像テキストマッチング問題に対する効果的な解法を提案しており、主に近年の大規模視覚言語(VL)トランスフォーマーネットワークを用いている。
本稿では,有効性と効率のギャップを埋めるため,ALADIN(ALign And Distill Network)を提案する。
論文 参考訳(メタデータ) (2022-07-29T16:01:48Z) - DocSegTr: An Instance-Level End-to-End Document Image Segmentation
Transformer [16.03084865625318]
ビジネスインテリジェンスプロセスは、しばしばドキュメントから有用なセマンティックコンテンツを抽出する必要がある。
本稿では,文書画像における複雑なレイアウトのエンドツーエンドセグメンテーションのためのトランスフォーマーモデルを提案する。
我々のモデルは、既存の最先端手法に比べて、同等またはより良いセグメンテーション性能を達成した。
論文 参考訳(メタデータ) (2022-01-27T10:50:22Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - ICDAR 2021 Competition on Components Segmentation Task of Document
Photos [63.289361617237944]
3つの課題タスクが提案され、提供されたデータセット上で異なるセグメンテーションの割り当てが実行される。
収集されたデータはブラジルのいくつかのID文書のもので、その個人情報は便利に交換された。
さまざまなディープラーニングモデルが、各タスクで最高の結果を得るために、さまざまな戦略を持つ参加者によって適用されました。
論文 参考訳(メタデータ) (2021-06-16T00:49:58Z) - Unsupervised Neural Domain Adaptation for Document Image Binarization [13.848843012433187]
本稿では,ニューラルネットワークとドメイン適応(DA)を組み合わせて,教師なし文書のバイナライゼーションを行う手法を提案する。
その結果,ラベル付きデータを必要とせず,新たな文書領域の双対化をうまく処理できることが示唆された。
論文 参考訳(メタデータ) (2020-12-02T13:42:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。