論文の概要: MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis
- arxiv url: http://arxiv.org/abs/2107.00396v1
- Date: Thu, 1 Jul 2021 12:14:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:35:48.084629
- Title: MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis
- Title(参考訳): MIDV-2020:ID文書分析のための総合ベンチマークデータセット
- Authors: Konstantin Bulatov, Ekaterina Emelianova, Daniil Tropin, Natalya
Skoryukina, Yulia Chernyshova, Alexander Sheshkus, Sergey Usilin, Zuheng
Ming, Jean-Christophe Burie, Muhammad Muzzamil Luqman, Vladimir V. Arlazarov
- Abstract要約: MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
- 参考スコア(独自算出の注目度): 48.35030471041193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Identity documents recognition is an important sub-field of document
analysis, which deals with tasks of robust document detection, type
identification, text fields recognition, as well as identity fraud prevention
and document authenticity validation given photos, scans, or video frames of an
identity document capture. Significant amount of research has been published on
this topic in recent years, however a chief difficulty for such research is
scarcity of datasets, due to the subject matter being protected by security
requirements. A few datasets of identity documents which are available lack
diversity of document types, capturing conditions, or variability of document
field values. In addition, the published datasets were typically designed only
for a subset of document recognition problems, not for a complex identity
document analysis. In this paper, we present a dataset MIDV-2020 which consists
of 1000 video clips, 2000 scanned images, and 1000 photos of 1000 unique mock
identity documents, each with unique text field values and unique artificially
generated faces, with rich annotation. For the presented benchmark dataset
baselines are provided for such tasks as document location and identification,
text fields recognition, and face detection. With 72409 annotated images in
total, to the date of publication the proposed dataset is the largest publicly
available identity documents dataset with variable artificially generated data,
and we believe that it will prove invaluable for advancement of the field of
document analysis and recognition. The dataset is available for download at
ftp://smartengines.com/midv-2020 and http://l3i-share.univ-lr.fr .
- Abstract(参考訳): アイデンティティドキュメント認識は、堅牢なドキュメント検出、型識別、テキストフィールド認識、およびID不正防止や、アイデンティティドキュメントキャプチャの写真、スキャン、ビデオフレームの信頼性検証といったタスクを扱うドキュメント解析の重要なサブフィールドである。
近年、このトピックに関するかなりの研究が公表されているが、その研究の最大の難点は、セキュリティ要件によって保護されていることによるデータセットの不足である。
利用可能なIDドキュメントのデータセットには、ドキュメントタイプの多様性、条件のキャプチャ、ドキュメントフィールド値の可変性がない。
さらに、公表されたデータセットは一般的に、複雑なID文書分析ではなく、文書認識問題のサブセットのためにのみ設計された。
本稿では,1000の動画クリップ,2000のスキャン画像,1000のユニークなモックIDドキュメントの1,000枚の写真からなるデータセットMIDV-2020を提案する。
提示されたベンチマークデータセットベースラインには、文書の位置と識別、テキストフィールド認識、顔検出などのタスクが提供されている。
合計72409個の注釈付き画像を用いて,提案データセットは,人為的に生成した可変データを用いた最大規模の公開ID文書データセットであり,文書解析と認識の分野の発展に有益であると考えられる。
データセットは ftp://smartengines.com/midv-2020 と http://l3i-share.univ-lr.fr でダウンロードできる。
関連論文リスト
- LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents [2.697503433221448]
我々は,LLMを用いた合成データ生成に新たなアプローチを導入し,事前定義されたフィールドに依存することなく,文脈的にリッチでリアルなデータを生成する。
我々のアプローチはデータセット作成のプロセスを単純化し、広範なドメイン知識の必要性を排除します。
このスケーラブルでプライバシ優先のソリューションは、自動文書処理とID認証のための機械学習の進歩の大きな一歩だ。
論文 参考訳(メタデータ) (2024-11-22T14:21:18Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - IDNet: A Novel Dataset for Identity Document Analysis and Fraud Detection [25.980165854663145]
IDNetは、プライバシー保護詐欺検出の取り組みを促進するために設計されたベンチマークデータセットである。
合成されたID文書の837,060枚の画像からなり、合計で約490ギガバイトである。
本研究は,プライバシ保護不正検出手法の訓練にどのように役立つかを示すとともに,データセットの有用性と利用事例を評価した。
論文 参考訳(メタデータ) (2024-08-03T07:05:40Z) - DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis [0.0]
アイデンティティドキュメント(ID)イメージ分析は、銀行口座の開設や保険契約など、多くのオンラインサービスにとって欠かせないものとなっている。
ID分析方法のベンチマークは,プライバシ制限やセキュリティ要件,法的理由などが主な理由だ。
我々は24,994個のリッチラベル付きID画像からなるDocXPand-25kデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-30T08:55:27Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
例えば、DSEは、BM25をトップ1検索精度で17ポイント上回り、さらにスライド検索の混合モダリティタスクでは、nDCG@10で15ポイント以上OCRテキスト検索手法を著しく上回ります。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Synthetic dataset of ID and Travel Document [1.9296797946506603]
本稿では,SIDTDと呼ばれる,IDおよび旅行用文書の合成データセットを提案する。
SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援するために作成されている。
論文 参考訳(メタデータ) (2024-01-03T18:06:28Z) - Document Layout Annotation: Database and Benchmark in the Domain of
Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。
スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。
実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文 参考訳(メタデータ) (2023-06-12T08:21:50Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z) - Source Printer Identification from Document Images Acquired using
Smartphone [14.889347839830092]
我々は,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。
提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。
論文 参考訳(メタデータ) (2020-03-27T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。