論文の概要: Synthetic dataset of ID and Travel Document
- arxiv url: http://arxiv.org/abs/2401.01858v1
- Date: Wed, 3 Jan 2024 18:06:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-04 13:22:21.834526
- Title: Synthetic dataset of ID and Travel Document
- Title(参考訳): idと旅行文書の合成データセット
- Authors: Carlos Boned and Maxime Talarmain and Nabil Ghanmi and Guillaume
Chiron and Sanket Biswas and Ahmad Montaser Awal and Oriol Ramos Terrades
- Abstract要約: 本稿では,SIDTDと呼ばれる,IDおよび旅行用文書の合成データセットを提案する。
SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援するために作成されている。
- 参考スコア(独自算出の注目度): 1.9296797946506603
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This paper presents a new synthetic dataset of ID and travel documents,
called SIDTD. The SIDTD dataset is created to help training and evaluating
forged ID documents detection systems. Such a dataset has become a necessity as
ID documents contain personal information and a public dataset of real
documents can not be released. Moreover, forged documents are scarce, compared
to legit ones, and the way they are generated varies from one fraudster to
another resulting in a class of high intra-variability. In this paper we
trained state-of-the-art models on this dataset and we compare them to the
performance achieved in larger, but private, datasets. The creation of this
dataset will help to document image analysis community to progress in the task
of ID document verification.
- Abstract(参考訳): 本稿では、SIDTDと呼ばれるIDおよび旅行文書の合成データセットを提案する。
SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援する。
このようなデータセットは、IDドキュメントに個人情報が含まれており、実際のドキュメントの公開データセットを公開できないため、必須になっている。
さらに、偽造文書は正当性に比較して不足しており、その生成方法が不正行為者によって異なるため、高い変動率のクラスが生じる。
本稿では,このデータセット上で最先端モデルをトレーニングし,大規模だがプライベートなデータセットで達成した性能と比較する。
このデータセットの作成は、画像分析コミュニティがID文書検証のタスクの進捗を文書化するのに役立ちます。
関連論文リスト
- ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models [69.86170930261841]
ACIDを導入し、それぞれのドキュメントのIDは、大きな言語モデルによって生成される抽象的なキーフレーズから構成される。
我々はACIDの使用がトップ10とトップ20の精度を15.6%、14.4%改善することを示した。
本研究は,LMを用いた生成検索における人間可読な自然言語IDの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - IncDSI: Incrementally Updatable Document Retrieval [32.89218578877908]
IncDSIは、データセット全体のモデルをトレーニングすることなく、リアルタイムでドキュメントを追加する方法である。
我々は、制約付き最適化問題として文書の追加を定式化し、ネットワークパラメータの変更を最小限に抑える。
私たちのアプローチは、データセット全体のモデルの再トレーニングと競合しています。
論文 参考訳(メタデータ) (2023-07-19T07:20:30Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - Augmenting Document Representations for Dense Retrieval with
Interpolation and Perturbation [49.940525611640346]
ドキュメント拡張(Document Augmentation for dense Retrieval)フレームワークは、ドキュメントの表現をDense Augmentationとperturbationsで強化する。
2つのベンチマークデータセットによる検索タスクにおけるDARの性能評価を行い、ラベル付き文書とラベルなし文書の密集検索において、提案したDARが関連するベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-03-15T09:07:38Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z) - Timestamping Documents and Beliefs [1.4467794332678539]
文書デートは、文書の時間構造に関する推論を必要とする難しい問題である。
本稿では,グラフ畳み込みネットワーク(GCN)に基づく文書年代測定手法であるNeuralDaterを提案する。
また,注意に基づく文書デートシステムであるAD3: Attentive Deep Document Daterを提案する。
論文 参考訳(メタデータ) (2021-06-09T02:12:18Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。