論文の概要: Source Printer Identification from Document Images Acquired using
Smartphone
- arxiv url: http://arxiv.org/abs/2003.12602v1
- Date: Fri, 27 Mar 2020 18:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-19 05:30:28.777581
- Title: Source Printer Identification from Document Images Acquired using
Smartphone
- Title(参考訳): スマートフォンを用いた文書画像からのソースプリンタ識別
- Authors: Sharad Joshi, Suraj Saxena, Nitin Khanna
- Abstract要約: 我々は,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。
提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。
- 参考スコア(独自算出の注目度): 14.889347839830092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vast volumes of printed documents continue to be used for various important
as well as trivial applications. Such applications often rely on the
information provided in the form of printed text documents whose integrity
verification poses a challenge due to time constraints and lack of resources.
Source printer identification provides essential information about the origin
and integrity of a printed document in a fast and cost-effective manner. Even
when fraudulent documents are identified, information about their origin can
help stop future frauds. If a smartphone camera replaces scanner for the
document acquisition process, document forensics would be more economical,
user-friendly, and even faster in many applications where remote and
distributed analysis is beneficial. Building on existing methods, we propose to
learn a single CNN model from the fusion of letter images and their
printer-specific noise residuals. In the absence of any publicly available
dataset, we created a new dataset consisting of 2250 document images of text
documents printed by eighteen printers and acquired by a smartphone camera at
five acquisition settings. The proposed method achieves 98.42% document
classification accuracy using images of letter 'e' under a 5x2 cross-validation
approach. Further, when tested using about half a million letters of all types,
it achieves 90.33% and 98.01% letter and document classification accuracies,
respectively, thus highlighting the ability to learn a discriminative model
without dependence on a single letter type. Also, classification accuracies are
encouraging under various acquisition settings, including low illumination and
change in angle between the document and camera planes.
- Abstract(参考訳): 膨大な量の印刷文書が、様々な重要な用途や自明な用途に使われ続けている。
このようなアプリケーションは、時間的制約とリソース不足のために整合性検証が課題となる印刷テキストの形式で提供される情報に依存していることが多い。
ソースプリンタ識別は、印刷文書の起源と整合性について、迅速かつ低コストで重要な情報を提供する。
不正な文書が特定されたとしても、その起源に関する情報は将来の詐欺を防ぐのに役立つ。
スマートフォンのカメラが文書取得プロセスのためにスキャナーを置き換えると、文書検索はより経済的でユーザーフレンドリーで、リモート分析や分散分析が有益である多くのアプリケーションでさらに高速になる。
既存の手法に基づいて,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。
公開データセットがないうちに,18台のプリンタが印刷したテキスト文書の2250枚の文書画像からなり,スマートフォンカメラが5つの買収設定で取得したデータセットを作成しました。
提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。
さらに、あらゆる種類の約50万文字を用いてテストすると、それぞれ90.33%、98.01%の文書分類精度が達成され、単一の文字タイプに依存しない識別モデルを学ぶ能力が強調される。
また、分類は、低照度や文書とカメラプレーン間の角度の変化など、様々な取得設定の下で推奨されている。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - IDNet: A Novel Dataset for Identity Document Analysis and Fraud Detection [25.980165854663145]
IDNetは、プライバシー保護詐欺検出の取り組みを促進するために設計されたベンチマークデータセットである。
合成されたID文書の837,060枚の画像からなり、合計で約490ギガバイトである。
本研究は,プライバシ保護不正検出手法の訓練にどのように役立つかを示すとともに,データセットの有用性と利用事例を評価した。
論文 参考訳(メタデータ) (2024-08-03T07:05:40Z) - DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis [0.0]
アイデンティティドキュメント(ID)イメージ分析は、銀行口座の開設や保険契約など、多くのオンラインサービスにとって欠かせないものとなっている。
ID分析方法のベンチマークは,プライバシ制限やセキュリティ要件,法的理由などが主な理由だ。
我々は24,994個のリッチラベル付きID画像からなるDocXPand-25kデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-30T08:55:27Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Watermark Text Pattern Spotting in Document Images [3.6298655794854464]
書字は様々なフォントやサイズ、形式に分類できるため、一般的な認識は非常に難しい問題である。
Wrenderを用いて生成された65,447個のデータサンプルを含む新しいベンチマーク(K-Watermark)を提案する。
人間のレーダを用いた妥当性調査では、予め作成された透かし文書に対する信頼度スコアが0.11である。
論文 参考訳(メタデータ) (2024-01-10T14:02:45Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z) - An Automatic Reader of Identity Documents [0.0]
本稿では,ID文書の自動読解システムの試作について述べる。
このシステムは、許容できる品質の写真から、主要なイタリアのアイデンティティー文書のデータを抽出すると考えられている。
文書はまず写真内でローカライズされ、次に分類され、最後にテキスト認識が実行される。
論文 参考訳(メタデータ) (2020-06-26T08:22:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。