Fugu-MT 論文翻訳(概要): MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis

論文の概要: MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis

arxiv url: http://arxiv.org/abs/2107.00396v1
Date: Thu, 1 Jul 2021 12:14:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-02 13:35:48.084629
Title: MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis
Title（参考訳）: MIDV-2020:ID文書分析のための総合ベンチマークデータセット
Authors: Konstantin Bulatov, Ekaterina Emelianova, Daniil Tropin, Natalya Skoryukina, Yulia Chernyshova, Alexander Sheshkus, Sergey Usilin, Zuheng Ming, Jean-Christophe Burie, Muhammad Muzzamil Luqman, Vladimir V. Arlazarov
Abstract要約: MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。 72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
参考スコア（独自算出の注目度）: 48.35030471041193
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Identity documents recognition is an important sub-field of document analysis, which deals with tasks of robust document detection, type identification, text fields recognition, as well as identity fraud prevention and document authenticity validation given photos, scans, or video frames of an identity document capture. Significant amount of research has been published on this topic in recent years, however a chief difficulty for such research is scarcity of datasets, due to the subject matter being protected by security requirements. A few datasets of identity documents which are available lack diversity of document types, capturing conditions, or variability of document field values. In addition, the published datasets were typically designed only for a subset of document recognition problems, not for a complex identity document analysis. In this paper, we present a dataset MIDV-2020 which consists of 1000 video clips, 2000 scanned images, and 1000 photos of 1000 unique mock identity documents, each with unique text field values and unique artificially generated faces, with rich annotation. For the presented benchmark dataset baselines are provided for such tasks as document location and identification, text fields recognition, and face detection. With 72409 annotated images in total, to the date of publication the proposed dataset is the largest publicly available identity documents dataset with variable artificially generated data, and we believe that it will prove invaluable for advancement of the field of document analysis and recognition. The dataset is available for download at ftp://smartengines.com/midv-2020 and http://l3i-share.univ-lr.fr .
Abstract（参考訳）: アイデンティティドキュメント認識は、堅牢なドキュメント検出、型識別、テキストフィールド認識、およびID不正防止や、アイデンティティドキュメントキャプチャの写真、スキャン、ビデオフレームの信頼性検証といったタスクを扱うドキュメント解析の重要なサブフィールドである。近年、このトピックに関するかなりの研究が公表されているが、その研究の最大の難点は、セキュリティ要件によって保護されていることによるデータセットの不足である。利用可能なIDドキュメントのデータセットには、ドキュメントタイプの多様性、条件のキャプチャ、ドキュメントフィールド値の可変性がない。さらに、公表されたデータセットは一般的に、複雑なID文書分析ではなく、文書認識問題のサブセットのためにのみ設計された。本稿では,1000の動画クリップ,2000のスキャン画像,1000のユニークなモックIDドキュメントの1,000枚の写真からなるデータセットMIDV-2020を提案する。提示されたベンチマークデータセットベースラインには、文書の位置と識別、テキストフィールド認識、顔検出などのタスクが提供されている。合計72409個の注釈付き画像を用いて,提案データセットは,人為的に生成した可変データを用いた最大規模の公開ID文書データセットであり,文書解析と認識の分野の発展に有益であると考えられる。データセットは ftp://smartengines.com/midv-2020 と http://l3i-share.univ-lr.fr でダウンロードできる。

関連論文リスト

Exploring a Patch-Wise Approach for Privacy-Preserving Fake ID Detection [12.969417519807322]
本研究は,フィールド内のいくつかの制限をカバーした偽ID検出の話題に焦点を当てた。実際のIDドキュメントから公開されているデータは存在せず、ほとんどの研究はプライバシ上の理由から利用できない独自データベースに依存している。プライバシ保護型偽ID検出のためのパッチワイドアプローチを提案する。
論文参考訳（メタデータ） (2025-04-10T14:01:22Z)
LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents [2.697503433221448]
我々は,LLMを用いた合成データ生成に新たなアプローチを導入し,事前定義されたフィールドに依存することなく,文脈的にリッチでリアルなデータを生成する。我々のアプローチはデータセット作成のプロセスを単純化し、広範なドメイン知識の必要性を排除します。このスケーラブルでプライバシ優先のソリューションは、自動文書処理とID認証のための機械学習の進歩の大きな一歩だ。
論文参考訳（メタデータ） (2024-11-22T14:21:18Z)
Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文参考訳（メタデータ） (2024-10-03T17:49:09Z)
IDNet: A Novel Dataset for Identity Document Analysis and Fraud Detection [25.980165854663145]
IDNetは、プライバシー保護詐欺検出の取り組みを促進するために設計されたベンチマークデータセットである。合成されたID文書の837,060枚の画像からなり、合計で約490ギガバイトである。本研究は,プライバシ保護不正検出手法の訓練にどのように役立つかを示すとともに,データセットの有用性と利用事例を評価した。
論文参考訳（メタデータ） (2024-08-03T07:05:40Z)
DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis [0.0]
アイデンティティドキュメント(ID)イメージ分析は、銀行口座の開設や保険契約など、多くのオンラインサービスにとって欠かせないものとなっている。 ID分析方法のベンチマークは,プライバシ制限やセキュリティ要件,法的理由などが主な理由だ。我々は24,994個のリッチラベル付きID画像からなるDocXPand-25kデータセットを提案する。
論文参考訳（メタデータ） (2024-07-30T08:55:27Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
Synthetic dataset of ID and Travel Document [1.9296797946506603]
本稿では,SIDTDと呼ばれる,IDおよび旅行用文書の合成データセットを提案する。 SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援するために作成されている。
論文参考訳（メタデータ） (2024-01-03T18:06:28Z)
Document Layout Annotation: Database and Benchmark in the Domain of Public Affairs [62.38140271294419]
レイアウトラベルの異なるデジタル文書を半自動アノテートする手法を提案する。スペイン政府から24データソースの集合を用いて,行政領域におけるDLAの新しいデータベースを収集する。実験の結果,提案したテキストラベリング手順を99%の精度で検証した。
論文参考訳（メタデータ） (2023-06-12T08:21:50Z)
DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文参考訳（メタデータ） (2020-06-01T16:04:30Z)
SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文参考訳（メタデータ） (2020-05-01T17:30:10Z)
Source Printer Identification from Document Images Acquired using Smartphone [14.889347839830092]
我々は,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。
論文参考訳（メタデータ） (2020-03-27T18:59:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。