論文の概要: DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis
- arxiv url: http://arxiv.org/abs/2407.20662v1
- Date: Tue, 30 Jul 2024 08:55:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 17:49:53.084875
- Title: DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis
- Title(参考訳): DocXPand-25k:ID文書分析のための大規模かつ多様なベンチマークデータセット
- Authors: Julien Lerouge, Guillaume Betmont, Thomas Bres, Evgeny Stepankevich, Alexis Bergès,
- Abstract要約: アイデンティティドキュメント(ID)イメージ分析は、銀行口座の開設や保険契約など、多くのオンラインサービスにとって欠かせないものとなっている。
ID分析方法のベンチマークは,プライバシ制限やセキュリティ要件,法的理由などが主な理由だ。
我々は24,994個のリッチラベル付きID画像からなるDocXPand-25kデータセットを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identity document (ID) image analysis has become essential for many online services, like bank account opening or insurance subscription. In recent years, much research has been conducted on subjects like document localization, text recognition and fraud detection, to achieve a level of accuracy reliable enough to automatize identity verification. However, there are only a few available datasets to benchmark ID analysis methods, mainly because of privacy restrictions, security requirements and legal reasons. In this paper, we present the DocXPand-25k dataset, which consists of 24,994 richly labeled IDs images, generated using custom-made vectorial templates representing nine fictitious ID designs, including four identity cards, two residence permits and three passports designs. These synthetic IDs feature artificially generated personal information (names, dates, identifiers, faces, barcodes, ...), and present a rich diversity in the visual layouts and textual contents. We collected about 5.8k diverse backgrounds coming from real-world photos, scans and screenshots of IDs to guarantee the variety of the backgrounds. The software we wrote to generate these images has been published (https://github.com/QuickSign/docxpand/) under the terms of the MIT license, and our dataset has been published (https://github.com/QuickSign/docxpand/releases/tag/v1.0.0) under the terms of the CC-BY-NC-SA 4.0 License.
- Abstract(参考訳): アイデンティティドキュメント(ID)イメージ分析は、銀行口座の開設や保険契約など、多くのオンラインサービスにとって欠かせないものとなっている。
近年,文書のローカライゼーションやテキスト認識,不正検出などの課題について多くの研究が行われ,個人認証の自動化に十分な精度が達成されている。
しかし、ID分析メソッドをベンチマークするデータセットは、プライバシの制限、セキュリティ要件、法的理由などが主な理由である。
本稿では,4つのIDカード,2つの居住許可証,3つのパスポートデザインを含む9つの虚偽IDデザインを表すカスタムメイドベクトルテンプレートを用いて,24,994個のリッチラベル付きID画像からなるDocXPand-25kデータセットを提案する。
これらの合成IDは、人工的に生成された個人情報(名前、日付、識別子、顔、バーコード、...)を特徴とし、視覚的レイアウトとテキストの内容に豊富な多様性を示す。
私たちは、さまざまな背景を保証するために、現実世界の写真、スキャン、IDのスクリーンショットから5.8万の多様な背景を収集しました。
私たちがこれらの画像を生成するために書いたソフトウェア(https://github.com/QuickSign/docxpand/)がMITライセンスの下で公開され、CC-BY-NC-SA 4.0ライセンスの下でデータセット(https://github.com/QuickSign/docxpand/releases/tag/v1.0.0)が公開された。
関連論文リスト
- LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents [2.697503433221448]
我々は,LLMを用いた合成データ生成に新たなアプローチを導入し,事前定義されたフィールドに依存することなく,文脈的にリッチでリアルなデータを生成する。
我々のアプローチはデータセット作成のプロセスを単純化し、広範なドメイン知識の必要性を排除します。
このスケーラブルでプライバシ優先のソリューションは、自動文書処理とID認証のための機械学習の進歩の大きな一歩だ。
論文 参考訳(メタデータ) (2024-11-22T14:21:18Z) - IDNet: A Novel Dataset for Identity Document Analysis and Fraud Detection [25.980165854663145]
IDNetは、プライバシー保護詐欺検出の取り組みを促進するために設計されたベンチマークデータセットである。
合成されたID文書の837,060枚の画像からなり、合計で約490ギガバイトである。
本研究は,プライバシ保護不正検出手法の訓練にどのように役立つかを示すとともに,データセットの有用性と利用事例を評価した。
論文 参考訳(メタデータ) (2024-08-03T07:05:40Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Magic-Me: Identity-Specific Video Customized Diffusion [72.05925155000165]
本稿では、VCD(Video Custom Diffusion)と呼ばれる、制御可能な被写体識別制御可能なビデオ生成フレームワークを提案する。
いくつかの画像によって定義された特定IDにより、VCDはアイデンティティ特性を強化し、安定したビデオ出力のためにフレームワイズ相関を注入する。
我々は、VCDがベースラインよりも優れたIDで安定した動画を生成可能であることを検証するために、広範囲な実験を行った。
論文 参考訳(メタデータ) (2024-02-14T18:13:51Z) - Synthetic dataset of ID and Travel Document [1.9296797946506603]
本稿では,SIDTDと呼ばれる,IDおよび旅行用文書の合成データセットを提案する。
SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援するために作成されている。
論文 参考訳(メタデータ) (2024-01-03T18:06:28Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - Multiview Identifiers Enhanced Generative Retrieval [78.38443356800848]
生成検索は、検索対象の通路の識別子文字列を生成する。
本稿では,パスの内容に基づいて生成される新しいタイプの識別子,合成識別子を提案する。
提案手法は生成的検索において最善を尽くし,その有効性とロバスト性を実証する。
論文 参考訳(メタデータ) (2023-05-26T06:50:21Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z) - Source Printer Identification from Document Images Acquired using
Smartphone [14.889347839830092]
我々は,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。
提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。
論文 参考訳(メタデータ) (2020-03-27T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。