論文の概要: Identity documents recognition and detection using semantic segmentation with convolutional neural network
- arxiv url: http://arxiv.org/abs/2503.01085v1
- Date: Mon, 03 Mar 2025 01:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:22:16.986880
- Title: Identity documents recognition and detection using semantic segmentation with convolutional neural network
- Title(参考訳): 畳み込みニューラルネットワークを用いたセマンティックセグメンテーションを用いたアイデンティティ文書の認識と検出
- Authors: Mykola Kozlenko, Volodymyr Sendetskyi, Oleksiy Simkiv, Nazar Savchenko, Andy Bosyi,
- Abstract要約: 本研究の目的は,提案手法の有効性を実証し,品質指標を得ることである。
本研究の方法論は,モバイルID文書ビデオデータセットに基づいて訓練されたディープラーニング検出モデルを評価することである。
本報告では、結合(IoU)の交点値が0.8の0.75以上の精度を報告している。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Object recognition and detection are well-studied problems with a developed set of almost standard solutions. Identity documents recognition, classification, detection, and localization are the tasks required in a number of applications, particularly, in physical access control security systems at critical infrastructure premises. In this paper, we propose the new original architecture of a model based on an artificial convolutional neural network and semantic segmentation approach for the recognition and detection of identity documents in images. The challenge with the processing of such images is the limited computational performance and the limited amount of memory when such an application is running on industrial oneboard microcomputer hardware. The aim of this research is to prove the feasibility of the proposed technique and to obtain quality metrics. The methodology of the research is to evaluate the deep learning detection model trained on the mobile identity document video dataset. The dataset contains five hundred video clips for fifty different identity document types. The numerical results from simulations are used to evaluate the quality metrics. We present the results as accuracy versus threshold of the intersection over union value. The paper reports an accuracy above 0.75 for the intersection over union (IoU) threshold value of 0.8. Besides, we assessed the size of the model and proved the feasibility of running the model on an industrial one-board microcomputer or smartphone hardware.
- Abstract(参考訳): オブジェクト認識と検出は、ほぼ標準的なソリューションの開発においてよく研究されている問題である。
アイデンティティドキュメントの認識、分類、検出、ローカライゼーションは、多くのアプリケーション、特に重要なインフラの物理的アクセス制御セキュリティシステムで必要とされるタスクである。
本稿では,画像中のID文書の認識と検出のための,人工畳み込みニューラルネットワークとセマンティックセマンティックセグメンテーションアプローチに基づくモデルの新たなオリジナルアーキテクチャを提案する。
このような画像の処理の課題は、産業用ワンボードマイクロコンピュータハードウェア上で実行される場合の計算性能の制限とメモリ容量の制限である。
本研究の目的は,提案手法の有効性を実証し,品質指標を得ることである。
本研究の方法論は,モバイルID文書ビデオデータセットに基づいて訓練されたディープラーニング検出モデルを評価することである。
データセットには、50の異なるIDドキュメントタイプのための500のビデオクリップが含まれている。
シミュレーションによる数値結果は、品質指標を評価するために用いられる。
本研究は,ユニオン値の交点の精度と閾値を比較検討する。
本報告では、IoUの交点値0.8の0.75以上の精度を報告している。
さらに、モデルのサイズを評価し、工業用ワンボードマイクロコンピュータやスマートフォンハードウェア上でモデルを実行する可能性を示した。
関連論文リスト
- Joint Neural Networks for One-shot Object Recognition and Detection [5.389851588398047]
本稿では,一発物体の認識と検出に難渋する課題に対処する,新しい結合ニューラルネットワーク手法を提案する。
Siameseのニューラルネットワークと最先端のマルチボックス検出アプローチにインスパイアされたジョイントニューラルネットワークは、トレーニングプロセス中に見つからないカテゴリのオブジェクト認識と検出を行うことができる。
提案手法は,MiniImageNetデータセット上での1ショットオブジェクト認識における61.41%の精度と,データセット上でトレーニングしてテストした場合の1ショットオブジェクト検出における47.1%のmAPを実現する。
論文 参考訳(メタデータ) (2024-08-01T16:48:03Z) - Straight Through Gumbel Softmax Estimator based Bimodal Neural Architecture Search for Audio-Visual Deepfake Detection [6.367999777464464]
マルチモーダルディープフェイク検出器は 従来の融合法に依存している 多数決ルールや アンサンブル投票など
本稿では,マルチモーダル融合モデルアーキテクチャを検索するための包括的アプローチを提供する,Straight-through Gumbel-Softmaxフレームワークを提案する。
FakeAVCelebとSWAN-DFデータセットの実験では、最小のモデルパラメータでAUCの94.4%が達成された。
論文 参考訳(メタデータ) (2024-06-19T09:26:22Z) - Unveiling Document Structures with YOLOv5 Layout Detection [0.0]
本研究では,文書レイアウトの迅速同定と非構造化データの抽出を目的とした,最先端コンピュータビジョンモデルYOLOv5の利用について検討する。
主な目的は、文書レイアウトを効果的に認識し、構造化されていないデータを抽出できる自律システムを作ることである。
論文 参考訳(メタデータ) (2023-09-29T07:45:10Z) - Hybrid Optimized Deep Convolution Neural Network based Learning Model
for Object Detection [0.0]
物体の識別はコンピュータビジョンにおける最も基本的で難しい問題の1つである。
近年,ディープラーニングに基づく物体検出技術が大衆の関心を集めている。
本研究では,自律型物体検出システムを構築するために,独自のディープラーニング分類手法を用いる。
提案するフレームワークは検出精度0.9864であり、現在の技術よりも高い。
論文 参考訳(メタデータ) (2022-03-02T04:39:37Z) - A Robust Framework for Deep Learning Approaches to Facial Emotion
Recognition and Evaluation [0.17398560678845074]
本稿では、FER用に開発したモデルを比較し、相互に比較するフレームワークを提案する。
AffectNetデータセットで、軽量な畳み込みニューラルネットワークをトレーニングする。
概念実証として提案したフレームワークを用いてWebアプリケーションを開発,デプロイする。
論文 参考訳(メタデータ) (2022-01-30T02:10:01Z) - Finding Facial Forgery Artifacts with Parts-Based Detectors [73.08584805913813]
顔の個々の部分に焦点を絞った一連の偽造検知システムを設計する。
これらの検出器を用いて、FaceForensics++、Celeb-DF、Facebook Deepfake Detection Challengeデータセットの詳細な実験分析を行う。
論文 参考訳(メタデータ) (2021-09-21T16:18:45Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - Anomaly Detection on Attributed Networks via Contrastive Self-Supervised
Learning [50.24174211654775]
本論文では,アトリビュートネットワーク上の異常検出のためのコントラスト型自己監視学習フレームワークを提案する。
このフレームワークは、新しいタイプのコントラストインスタンスペアをサンプリングすることで、ネットワークデータからのローカル情報を完全に活用します。
高次元特性と局所構造から情報埋め込みを学習するグラフニューラルネットワークに基づくコントラスト学習モデルを提案する。
論文 参考訳(メタデータ) (2021-02-27T03:17:20Z) - Generalized Iris Presentation Attack Detection Algorithm under
Cross-Database Settings [63.90855798947425]
プレゼンテーションアタックは、バイオメトリックなモダリティの大部分に大きな課題をもたらす。
本稿では,汎用的な深層学習に基づくプレゼンテーション攻撃検出ネットワークであるMVANetを提案する。
これはハイブリッドアルゴリズムの単純さと成功、あるいは複数の検出ネットワークの融合にインスパイアされている。
論文 参考訳(メタデータ) (2020-10-25T22:42:27Z) - AutoOD: Automated Outlier Detection via Curiosity-guided Search and
Self-imitation Learning [72.99415402575886]
外乱検出は重要なデータマイニングの課題であり、多くの実用的応用がある。
本稿では,最適なニューラルネットワークモデルを探すことを目的とした自動外乱検出フレームワークであるAutoODを提案する。
さまざまな実世界のベンチマークデータセットに対する実験結果から、AutoODが特定したディープモデルが最高のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2020-06-19T18:57:51Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。