論文の概要: LDRNet: Enabling Real-time Document Localization on Mobile Devices
- arxiv url: http://arxiv.org/abs/2206.02136v1
- Date: Sun, 5 Jun 2022 09:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:11:38.339393
- Title: LDRNet: Enabling Real-time Document Localization on Mobile Devices
- Title(参考訳): LDRNet: モバイルデバイス上でリアルタイムなドキュメントローカライズを実現する
- Authors: Han Wu, Holland Qian, Huaming Wu
- Abstract要約: モバイルデバイス上のIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて広く普及している。
既存のAIベースのアプローチは、モバイルデバイスのリアルタイムで軽量な要求を満たすことはできない。
本稿では,モバイル端末向け文書ローカライズモデル LDRNet を提案し,リアルタイムに識別文書をローカライズする。
- 参考スコア(独自算出の注目度): 20.77521148374465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Identity Document Verification (IDV) technology on mobile devices
becomes ubiquitous in modern business operations, the risk of identity theft
and fraud is increasing. The identity document holder is normally required to
participate in an online video interview to circumvent impostors. However, the
current IDV process depends on an additional human workforce to support online
step-by-step guidance which is inefficient and expensive. The performance of
existing AI-based approaches cannot meet the real-time and lightweight demands
of mobile devices. In this paper, we address those challenges by designing an
edge intelligence-assisted approach for real-time IDV. Aiming at improving the
responsiveness of the IDV process, we propose a new document localization model
for mobile devices, LDRNet, to Localize the identity Document in Real-time. On
the basis of a lightweight backbone network, we build three prediction branches
for LDRNet, the corner points prediction, the line borders prediction and the
document classification. We design novel supplementary targets, the
equal-division points, and use a new loss function named Line Loss, to improve
the speed and accuracy of our approach. In addition to the IDV process, LDRNet
is an efficient and reliable document localization alternative for all kinds of
mobile applications. As a matter of proof, we compare the performance of LDRNet
with other popular approaches on localizing general document datasets. The
experimental results show that LDRNet runs at a speed up to 790 FPS which is
47x faster, while still achieving comparable Jaccard Index(JI) in single-model
and single-scale tests.
- Abstract(参考訳): モバイル機器におけるIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて普及しているが、ID盗難や詐欺のリスクが高まっている。
アイデンティティドキュメント保持者は、通常、インポスタを回避するためにオンラインビデオインタビューに参加する必要がある。
しかし、現在のIDVプロセスは、非効率で高価なオンラインステップバイステップガイダンスをサポートするために、追加の人的労働力に依存する。
既存のAIベースのアプローチのパフォーマンスは、モバイルデバイスのリアルタイムおよび軽量な要求を満たすことはできない。
本稿では,リアルタイムIDVのためのエッジインテリジェンス支援アプローチを設計することで,これらの課題に対処する。
本稿では,idvプロセスの応答性を向上させるために,モバイル機器用の新しい文書ローカライズモデルであるldrnetを提案する。
軽量なバックボーンネットワークに基づいて,ldrnet,コーナーポイント予測,ライン境界予測,ドキュメント分類のための3つの予測ブランチを構築した。
我々は,新たな補足的目標,等分割点を設計し,新しい損失関数Line Lossを用いて,アプローチの速度と精度を向上させる。
IDVプロセスに加えて、LDRNetはあらゆる種類のモバイルアプリケーションに対して効率的で信頼性の高いドキュメントローカライゼーションの代替手段である。
実証として、LDRNetと一般的な文書データセットのローカライズに関する一般的なアプローチを比較した。
実験の結果, LDRNetは最大790 FPSで47倍高速で動作し, シングルモデルおよびシングルスケールテストではJaccard Index(JI)に匹敵する性能を示した。
関連論文リスト
- Alice Benchmarks: Connecting Real World Re-Identification with the
Synthetic [92.02220105679713]
我々は、Aliceベンチマーク、大規模データセット、ベンチマークおよび評価プロトコルを研究コミュニティに導入する。
Aliceベンチマークでは、人と車の2つのre-IDタスクが提供されている。
実際のターゲットの重要な特徴として、トレーニングセットのクラスタビリティは、実際のドメイン適応テストシナリオに近づくように手動で保証されない。
論文 参考訳(メタデータ) (2023-10-06T17:58:26Z) - TransferDoc: A Self-Supervised Transferable Document Representation
Learning Model Unifying Vision and Language [4.629032441868536]
TransferDocは、自己管理型で事前トレーニングされた、クロスモーダルトランスフォーマーベースのアーキテクチャである。
言語と視覚表現を統一することで、より豊かな意味概念を学ぶ。
工業的な評価シナリオにおいて、他の最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-09-11T18:35:14Z) - DSI++: Updating Transformer Memory with New Documents [95.70264288158766]
DSI++は、DSIが新たなドキュメントをインクリメンタルにインデクシングするための継続的な学習課題である。
新たな文書の連続的な索引付けは,それまでの索引付け文書をかなり忘れてしまうことを示す。
文書の擬似クエリをサンプルとして生成メモリを導入し、連続的なインデックス付け中に補足することで、検索タスクの忘れを防止する。
論文 参考訳(メタデータ) (2022-12-19T18:59:34Z) - SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-20T01:28:44Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Autodidactic Neurosurgeon: Collaborative Deep Inference for Mobile Edge
Intelligence via Online Learning [19.013102763434794]
本稿では,資源制約のあるモバイルデバイスと強力なエッジサーバとの間に協調的な深層推論システムを構築する。
我々のシステムには、Autodidactic Neurosurgeon (ANS)と呼ばれるオンライン学習モジュールが組み込まれており、最適な分割点を自動的に学習する。
ANSは、トラッキングシステムの変更とエンドツーエンドの推論遅延の低減の観点から、最先端のベンチマークを著しく上回る。
論文 参考訳(メタデータ) (2021-02-02T18:50:06Z) - Achieving Real-Time LiDAR 3D Object Detection on a Mobile Device [53.323878851563414]
本稿では,強化学習技術を用いたネットワーク拡張とpruning検索を組み込んだコンパイラ対応統一フレームワークを提案する。
具体的には,リカレントニューラルネットワーク(RNN)を用いて,ネットワークの強化とプルーニングの両面での統一的なスキームを自動で提供する。
提案手法は,モバイルデバイス上でのリアルタイム3次元物体検出を実現する。
論文 参考訳(メタデータ) (2020-12-26T19:41:15Z) - A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。
本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文 参考訳(メタデータ) (2020-04-03T00:57:33Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。