論文の概要: LDRNet: Enabling Real-time Document Localization on Mobile Devices
- arxiv url: http://arxiv.org/abs/2206.02136v3
- Date: Thu, 12 Oct 2023 13:55:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-16 04:43:32.900112
- Title: LDRNet: Enabling Real-time Document Localization on Mobile Devices
- Title(参考訳): LDRNet: モバイルデバイス上でリアルタイムなドキュメントローカライズを実現する
- Authors: Han Wu, Holland Qian, Huaming Wu, Aad van Moorsel
- Abstract要約: モバイルデバイス上のIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて広く普及している。
既存のAIベースのアプローチは、モバイルデバイスのリアルタイムで軽量な要求を満たすことはできない。
本稿では,モバイル端末向け文書ローカライズモデル LDRNet を提案し,リアルタイムに識別文書をローカライズする。
- 参考スコア(独自算出の注目度): 16.266200257522534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Identity Document Verification (IDV) technology on mobile devices
becomes ubiquitous in modern business operations, the risk of identity theft
and fraud is increasing. The identity document holder is normally required to
participate in an online video interview to circumvent impostors. However, the
current IDV process depends on an additional human workforce to support online
step-by-step guidance which is inefficient and expensive. The performance of
existing AI-based approaches cannot meet the real-time and lightweight demands
of mobile devices. In this paper, we address those challenges by designing an
edge intelligence-assisted approach for real-time IDV. Aiming at improving the
responsiveness of the IDV process, we propose a new document localization model
for mobile devices, LDRNet, to Localize the identity Document in Real-time. On
the basis of a lightweight backbone network, we build three prediction branches
for LDRNet, the corner points prediction, the line borders prediction and the
document classification. We design novel supplementary targets, the
equal-division points, and use a new loss function named Line Loss, to improve
the speed and accuracy of our approach. In addition to the IDV process, LDRNet
is an efficient and reliable document localization alternative for all kinds of
mobile applications. As a matter of proof, we compare the performance of LDRNet
with other popular approaches on localizing general document datasets. The
experimental results show that LDRNet runs at a speed up to 790 FPS which is
47x faster, while still achieving comparable Jaccard Index(JI) in single-model
and single-scale tests.
- Abstract(参考訳): モバイル機器におけるIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて普及しているが、ID盗難や詐欺のリスクが高まっている。
アイデンティティドキュメント保持者は、通常、インポスタを回避するためにオンラインビデオインタビューに参加する必要がある。
しかし、現在のIDVプロセスは、非効率で高価なオンラインステップバイステップガイダンスをサポートするために、追加の人的労働力に依存する。
既存のAIベースのアプローチのパフォーマンスは、モバイルデバイスのリアルタイムおよび軽量な要求を満たすことはできない。
本稿では,リアルタイムIDVのためのエッジインテリジェンス支援アプローチを設計することで,これらの課題に対処する。
本稿では,idvプロセスの応答性を向上させるために,モバイル機器用の新しい文書ローカライズモデルであるldrnetを提案する。
軽量なバックボーンネットワークに基づいて,ldrnet,コーナーポイント予測,ライン境界予測,ドキュメント分類のための3つの予測ブランチを構築した。
我々は,新たな補足的目標,等分割点を設計し,新しい損失関数Line Lossを用いて,アプローチの速度と精度を向上させる。
IDVプロセスに加えて、LDRNetはあらゆる種類のモバイルアプリケーションに対して効率的で信頼性の高いドキュメントローカライゼーションの代替手段である。
実証として、LDRNetと一般的な文書データセットのローカライズに関する一般的なアプローチを比較した。
実験の結果, LDRNetは最大790 FPSで47倍高速で動作し, シングルモデルおよびシングルスケールテストではJaccard Index(JI)に匹敵する性能を示した。
関連論文リスト
- DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。
本稿では,スパースRAGという新しいパラダイムを提案する。
Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文 参考訳(メタデータ) (2024-05-25T11:10:04Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。
SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。
MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-11-20T01:28:44Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。
DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。
その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2021-06-08T16:27:04Z) - Autodidactic Neurosurgeon: Collaborative Deep Inference for Mobile Edge
Intelligence via Online Learning [19.013102763434794]
本稿では,資源制約のあるモバイルデバイスと強力なエッジサーバとの間に協調的な深層推論システムを構築する。
我々のシステムには、Autodidactic Neurosurgeon (ANS)と呼ばれるオンライン学習モジュールが組み込まれており、最適な分割点を自動的に学習する。
ANSは、トラッキングシステムの変更とエンドツーエンドの推論遅延の低減の観点から、最先端のベンチマークを著しく上回る。
論文 参考訳(メタデータ) (2021-02-02T18:50:06Z) - Achieving Real-Time LiDAR 3D Object Detection on a Mobile Device [53.323878851563414]
本稿では,強化学習技術を用いたネットワーク拡張とpruning検索を組み込んだコンパイラ対応統一フレームワークを提案する。
具体的には,リカレントニューラルネットワーク(RNN)を用いて,ネットワークの強化とプルーニングの両面での統一的なスキームを自動で提供する。
提案手法は,モバイルデバイス上でのリアルタイム3次元物体検出を実現する。
論文 参考訳(メタデータ) (2020-12-26T19:41:15Z) - A Fast Fully Octave Convolutional Neural Network for Document Image
Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。
本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。
その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文 参考訳(メタデータ) (2020-04-03T00:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。