論文の概要: Towards an Efficient Semantic Segmentation Method of ID Cards for
Verification Systems
- arxiv url: http://arxiv.org/abs/2111.12764v1
- Date: Wed, 24 Nov 2021 19:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:01:20.660560
- Title: Towards an Efficient Semantic Segmentation Method of ID Cards for
Verification Systems
- Title(参考訳): 検証システムにおけるIDカードの効率的なセマンティックセグメンテーション手法
- Authors: Rodrigo Lara, Andres Valenzuela, Daniel Schulz, Juan Tapia, and
Christoph Busch
- Abstract要約: 本研究では,IDカードのセマンティックセグメンテーションを用いて背景を除去する手法を提案する。
MobileUNetとDenseNet10をベースとした2つのディープラーニングアプローチが検討された。
提案手法は,モバイル端末上でのリアルタイム操作に利用できるほど軽量である。
- 参考スコア(独自算出の注目度): 8.820032281861227
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Removing the background in ID Card images is a real challenge for remote
verification systems because many of the re-digitalised images present
cluttered backgrounds, poor illumination conditions, distortion and occlusions.
The background in ID Card images confuses the classifiers and the text
extraction. Due to the lack of available images for research, this field
represents an open problem in computer vision today. This work proposes a
method for removing the background using semantic segmentation of ID Cards. In
the end, images captured in the wild from the real operation, using a manually
labelled dataset consisting of 45,007 images, with five types of ID Cards from
three countries (Chile, Argentina and Mexico), including typical presentation
attack scenarios, were used. This method can help to improve the following
stages in a regular identity verification or document tampering detection
system. Two Deep Learning approaches were explored, based on MobileUNet and
DenseNet10. The best results were obtained using MobileUNet, with 6.5 million
parameters. A Chilean ID Card's mean Intersection Over Union (IoU) was 0.9926
on a private test dataset of 4,988 images. The best results for the fused
multi-country dataset of ID Card images from Chile, Argentina and Mexico
reached an IoU of 0.9911. The proposed methods are lightweight enough to be
used in real-time operation on mobile devices.
- Abstract(参考訳): idカード画像の背景の除去は、再デジタル化された画像の多くは、ぼろぼろの背景、照明条件の悪さ、歪み、オクルージョンがあるため、リモート検証システムにとって大きな課題である。
IDカード画像の背景は、分類器とテキスト抽出を混乱させる。
研究用の画像が不足しているため、今日のコンピュータビジョンにおけるオープンな問題となっている。
本稿では,idカードの意味セグメンテーションを用いた背景除去手法を提案する。
最終的に、実際の操作から野生で撮影された画像は、典型的なプレゼンテーション攻撃シナリオを含む3カ国(チリ、アルゼンチン、メキシコ)の5種類のIDカードを含む45,007枚の画像からなる手動ラベル付きデータセットを使用していた。
本手法は,正当性検証や文書改ざん検出システムにおいて,次の段階を改善するのに役立つ。
MobileUNetとDenseNet10をベースとした2つのディープラーニングアプローチが検討された。
最良の結果は650万のパラメータを持つMobileUNetで得られた。
チリのidカードの平均交点(iou)は4,988画像のプライベートテストデータセットで0.9926であった。
チリ、アルゼンチン、メキシコの多国間IDカード画像の融合データセットの最良の結果は、0.9911のIoUに達した。
提案手法は,モバイル端末でのリアルタイム操作に使用できるほど軽量である。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - T-MARS: Improving Visual Representations by Circumventing Text Feature Learning [99.3682210827572]
LAIONの画像の40%近くは、字幕と重なるテキストを含んでいるという、我々の観察に動機づけられた新しいデータフィルタリング手法を提案する。
我々のシンプルでスケーラブルなアプローチであるT-MARSは、テキストが残りの視覚的特徴を支配するペアのみをフィルタリングします。
論文 参考訳(メタデータ) (2023-07-06T16:59:52Z) - Zero-Shot In-Distribution Detection in Multi-Object Settings Using
Vision-Language Foundation Models [37.36999826208225]
本稿では,ゼロショット・イン・ディストリビューション(ID)検出と呼ばれる新しい問題設定を提案する。
我々は、IDオブジェクトを含むイメージを(OODオブジェクトを含む場合でも)IDイメージとして識別し、IDオブジェクトを持たないイメージをOODイメージとしてトレーニングせずに識別する。
本稿では,CLIP機能のグローバルおよびローカルな視覚テキストアライメントに基づく,シンプルで効果的な概念マッチング手法であるGlobal-Local Concept Matchingを提案する。
論文 参考訳(メタデータ) (2023-04-10T11:35:42Z) - Improving Presentation Attack Detection for ID Cards on Remote
Verification Systems [2.0305676256390934]
本稿では,IDカードの遠隔生体認証システムのための2段階のエンドツーエンド提示検出手法を提案する。
提案は、実例190,000のチリのIDカードイメージからなるデータベースを使用して、第三者企業の支援により開発された。
本手法は2つの畳み込みニューラルネットワークを個別にトレーニングし,それぞれ1.69%,2.36%のIDカード攻撃でBPCERtextsubscript100スコアに達した。
論文 参考訳(メタデータ) (2023-01-23T16:59:26Z) - Synthetic ID Card Image Generation for Improving Presentation Attack
Detection [12.232059909207578]
本研究は,不正検出ネットワークを訓練しながら,データ量を増やすために,IDカード画像を合成的に生成する3つの手法について検討する。
以上の結果から, PAIS (Print/Scan Presentation Attack Instrument Species) の性能低下や, PAIS (Sing/Scan Presentation Instrument Species) の性能低下を伴わずに, 合成画像でデータベースを補足できることが示唆された。
論文 参考訳(メタデータ) (2022-10-31T19:07:30Z) - ObjectFormer for Image Manipulation Detection and Localization [118.89882740099137]
画像操作の検出とローカライズを行うObjectFormerを提案する。
画像の高周波特徴を抽出し,マルチモーダルパッチの埋め込みとしてRGB特徴と組み合わせる。
各種データセットについて広範な実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2022-03-28T12:27:34Z) - SISL:Self-Supervised Image Signature Learning for Splicing Detection and
Localization [11.437760125881049]
画像の周波数変換からスプライシング検出/局所化モデルを訓練するための自己教師型アプローチを提案する。
提案したモデルでは,ラベルやメタデータを使わずに,標準データセット上で同様のあるいはより良いパフォーマンスが得られる。
論文 参考訳(メタデータ) (2022-03-15T12:26:29Z) - Camera-aware Proxies for Unsupervised Person Re-Identification [60.26031011794513]
本稿では、アノテーションを必要としない純粋に教師なしの人物識別(Re-ID)問題に取り組む。
各クラスタを複数のプロキシに分割し、それぞれのプロキシが同じカメラからのインスタンスを表すことを提案する。
カメラ認識プロキシに基づいて、カメラ内およびカメラ間コントラスト学習コンポーネントをre-idモデル用に設計する。
論文 参考訳(メタデータ) (2020-12-19T12:37:04Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。
本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文 参考訳(メタデータ) (2020-04-03T00:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。