論文の概要: LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents
- arxiv url: http://arxiv.org/abs/2411.14962v2
- Date: Mon, 23 Dec 2024 19:01:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:53:36.880617
- Title: LLM for Barcodes: Generating Diverse Synthetic Data for Identity Documents
- Title(参考訳): バーコードのためのLLM: アイデンティティドキュメントのための多元合成データの生成
- Authors: Hitesh Laxmichand Patel, Amit Agarwal, Bhargava Kumar, Karan Gupta, Priyaranjan Pattnayak,
- Abstract要約: 我々は,LLMを用いた合成データ生成に新たなアプローチを導入し,事前定義されたフィールドに依存することなく,文脈的にリッチでリアルなデータを生成する。
我々のアプローチはデータセット作成のプロセスを単純化し、広範なドメイン知識の必要性を排除します。
このスケーラブルでプライバシ優先のソリューションは、自動文書処理とID認証のための機械学習の進歩の大きな一歩だ。
- 参考スコア(独自算出の注目度): 2.697503433221448
- License:
- Abstract: Accurate barcode detection and decoding in Identity documents is crucial for applications like security, healthcare, and education, where reliable data extraction and verification are essential. However, building robust detection models is challenging due to the lack of diverse, realistic datasets an issue often tied to privacy concerns and the wide variety of document formats. Traditional tools like Faker rely on predefined templates, making them less effective for capturing the complexity of real-world identity documents. In this paper, we introduce a new approach to synthetic data generation that uses LLMs to create contextually rich and realistic data without relying on predefined field. Using the vast knowledge LLMs have about different documents and content, our method creates data that reflects the variety found in real identity documents. This data is then encoded into barcode and overlayed on templates for documents such as Driver's licenses, Insurance cards, Student IDs. Our approach simplifies the process of dataset creation, eliminating the need for extensive domain knowledge or predefined fields. Compared to traditional methods like Faker, data generated by LLM demonstrates greater diversity and contextual relevance, leading to improved performance in barcode detection models. This scalable, privacy-first solution is a big step forward in advancing machine learning for automated document processing and identity verification.
- Abstract(参考訳): アイデンティティドキュメントの正確なバーコード検出と復号化は、信頼性の高いデータ抽出と検証が不可欠であるセキュリティ、医療、教育などのアプリケーションに不可欠である。
しかし、多様で現実的なデータセットが欠如しているため、堅牢な検出モデルの構築は困難である。
Fakerのような従来のツールは事前に定義されたテンプレートに依存しており、現実世界のIDドキュメントの複雑さを捉えるのに効果的ではない。
本稿では,LLMを用いて文脈的にリッチでリアルなデータを生成する合成データ生成手法を提案する。
LLMには、異なる文書や内容に関する膨大な知識があり、本手法は、実際のID文書に見られる多様性を反映したデータを生成する。
このデータはバーコードにエンコードされ、ドライバのライセンス、保険証、学生IDなどの文書のテンプレートにオーバーレイされる。
我々のアプローチはデータセット作成のプロセスを単純化し、広範なドメイン知識や事前定義されたフィールドの必要性を排除します。
Fakerのような従来の手法と比較して、LLMが生成したデータは多様性とコンテキスト関連性が向上し、バーコード検出モデルのパフォーマンスが向上した。
このスケーラブルでプライバシ優先のソリューションは、自動文書処理とID認証のための機械学習の進歩の大きな一歩だ。
関連論文リスト
- DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - Generative Retrieval Meets Multi-Graded Relevance [104.75244721442756]
GRADed Generative Retrieval (GR$2$)というフレームワークを紹介します。
GR$2$は2つの重要なコンポーネントに焦点を当てている。
マルチグレードとバイナリの関連性を持つデータセットの実験は,GR$2$の有効性を示した。
論文 参考訳(メタデータ) (2024-09-27T02:55:53Z) - DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis [0.0]
アイデンティティドキュメント(ID)イメージ分析は、銀行口座の開設や保険契約など、多くのオンラインサービスにとって欠かせないものとなっている。
ID分析方法のベンチマークは,プライバシ制限やセキュリティ要件,法的理由などが主な理由だ。
我々は24,994個のリッチラベル付きID画像からなるDocXPand-25kデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-30T08:55:27Z) - Synthetic dataset of ID and Travel Document [1.9296797946506603]
本稿では,SIDTDと呼ばれる,IDおよび旅行用文書の合成データセットを提案する。
SIDTDデータセットは、偽ID文書検出システムのトレーニングと評価を支援するために作成されている。
論文 参考訳(メタデータ) (2024-01-03T18:06:28Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Identity Documents Authentication based on Forgery Detection of
Guilloche Pattern [2.606834301724095]
ギロシェパターンの偽造検出に基づく識別文書の認証モデルを提案する。
認証性能を高めるために、最も適切なパラメータを分析し、識別するために実験を行う。
論文 参考訳(メタデータ) (2022-06-22T11:37:10Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z) - MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document
Analysis [48.35030471041193]
MIDV-2020は1000の動画クリップ、2000のスキャン画像、1000のユニークなモックIDドキュメントの写真で構成されている。
72409の注釈付き画像により、提案されたデータセットは公開日までで最大の公開IDドキュメントデータセットである。
論文 参考訳(メタデータ) (2021-07-01T12:14:17Z) - Generating Synthetic Handwritten Historical Documents With OCR
Constrained GANs [2.3808546906079178]
我々は,無記名歴史画像のコレクションのみを用いて,正確な根拠真理を持つ合成歴史文書を生成する枠組みを提案する。
我々は,大規模ラベル付き歴史文書データセットを精度良く生成することのできる高品質な合成法を実証する。
論文 参考訳(メタデータ) (2021-03-15T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。