論文の概要: Synthetic dataset of ID and Travel Document
- arxiv url: http://arxiv.org/abs/2401.01858v1
- Date: Wed, 3 Jan 2024 18:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:22:21.834526
- Title: Synthetic dataset of ID and Travel Document
- Title(参考訳): idと旅行文書の合成データセット
- Authors: Carlos Boned and Maxime Talarmain and Nabil Ghanmi and Guillaume
Chiron and Sanket Biswas and Ahmad Montaser Awal and Oriol Ramos Terrades
- Abstract要約: 本稿では,SIDTDと呼ばれる,IDおよび旅行用文書の合成データセットを提案する。
SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援するために作成されている。
- 参考スコア(独自算出の注目度): 1.9296797946506603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a new synthetic dataset of ID and travel documents,
called SIDTD. The SIDTD dataset is created to help training and evaluating
forged ID documents detection systems. Such a dataset has become a necessity as
ID documents contain personal information and a public dataset of real
documents can not be released. Moreover, forged documents are scarce, compared
to legit ones, and the way they are generated varies from one fraudster to
another resulting in a class of high intra-variability. In this paper we
trained state-of-the-art models on this dataset and we compare them to the
performance achieved in larger, but private, datasets. The creation of this
dataset will help to document image analysis community to progress in the task
of ID document verification.
- Abstract(参考訳): 本稿では、SIDTDと呼ばれるIDおよび旅行文書の合成データセットを提案する。
SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援する。
このようなデータセットは、IDドキュメントに個人情報が含まれており、実際のドキュメントの公開データセットを公開できないため、必須になっている。
さらに、偽造文書は正当性に比較して不足しており、その生成方法が不正行為者によって異なるため、高い変動率のクラスが生じる。
本稿では,このデータセット上で最先端モデルをトレーニングし,大規模だがプライベートなデータセットで達成した性能と比較する。
このデータセットの作成は、画像分析コミュニティがID文書検証のタスクの進捗を文書化するのに役立ちます。
関連論文リスト
- LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents [2.697503433221448]
我々は,LLMを用いた合成データ生成に新たなアプローチを導入し,事前定義されたフィールドに依存することなく,文脈的にリッチでリアルなデータを生成する。
我々のアプローチはデータセット作成のプロセスを単純化し、広範なドメイン知識の必要性を排除します。
このスケーラブルでプライバシ優先のソリューションは、自動文書処理とID認証のための機械学習の進歩の大きな一歩だ。
論文 参考訳(メタデータ) (2024-11-22T14:21:18Z) - DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - IDNet: A Novel Dataset for Identity Document Analysis and Fraud Detection [25.980165854663145]
IDNetは、プライバシー保護詐欺検出の取り組みを促進するために設計されたベンチマークデータセットである。
合成されたID文書の837,060枚の画像からなり、合計で約490ギガバイトである。
本研究は,プライバシ保護不正検出手法の訓練にどのように役立つかを示すとともに,データセットの有用性と利用事例を評価した。
論文 参考訳(メタデータ) (2024-08-03T07:05:40Z) - DELINE8K: A Synthetic Data Pipeline for the Semantic Segmentation of Historical Documents [0.0]
文書セマンティックセグメンテーションは、OCR、フォーム分類、文書編集などの文書解析作業を容易にする。
いくつかの合成データセットは、印刷されたテキストと手書きを区別するために開発されたが、それらはクラス多様性と文書の多様性に欠ける。
現在までに最も包括的な文書セマンティックセマンティクスパイプラインを提案し、10以上のソースからプレプリントされたテキスト、手書き、文書背景を組み込んだ。
我々のカスタマイズされたデータセットはNAFSSベンチマークで優れたパフォーマンスを示し、さらなる研究において有望なツールであることを示した。
論文 参考訳(メタデータ) (2024-04-30T04:53:10Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。