Fugu-MT 論文翻訳(概要): LDRNet: Enabling Real-time Document Localization on Mobile Devices

論文の概要: LDRNet: Enabling Real-time Document Localization on Mobile Devices

arxiv url: http://arxiv.org/abs/2206.02136v1
Date: Sun, 5 Jun 2022 09:39:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-07 17:11:38.339393
Title: LDRNet: Enabling Real-time Document Localization on Mobile Devices
Title（参考訳）: LDRNet: モバイルデバイス上でリアルタイムなドキュメントローカライズを実現する
Authors: Han Wu, Holland Qian, Huaming Wu
Abstract要約: モバイルデバイス上のIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて広く普及している。既存のAIベースのアプローチは、モバイルデバイスのリアルタイムで軽量な要求を満たすことはできない。本稿では,モバイル端末向け文書ローカライズモデル LDRNet を提案し,リアルタイムに識別文書をローカライズする。
参考スコア（独自算出の注目度）: 20.77521148374465
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While Identity Document Verification (IDV) technology on mobile devices becomes ubiquitous in modern business operations, the risk of identity theft and fraud is increasing. The identity document holder is normally required to participate in an online video interview to circumvent impostors. However, the current IDV process depends on an additional human workforce to support online step-by-step guidance which is inefficient and expensive. The performance of existing AI-based approaches cannot meet the real-time and lightweight demands of mobile devices. In this paper, we address those challenges by designing an edge intelligence-assisted approach for real-time IDV. Aiming at improving the responsiveness of the IDV process, we propose a new document localization model for mobile devices, LDRNet, to Localize the identity Document in Real-time. On the basis of a lightweight backbone network, we build three prediction branches for LDRNet, the corner points prediction, the line borders prediction and the document classification. We design novel supplementary targets, the equal-division points, and use a new loss function named Line Loss, to improve the speed and accuracy of our approach. In addition to the IDV process, LDRNet is an efficient and reliable document localization alternative for all kinds of mobile applications. As a matter of proof, we compare the performance of LDRNet with other popular approaches on localizing general document datasets. The experimental results show that LDRNet runs at a speed up to 790 FPS which is 47x faster, while still achieving comparable Jaccard Index(JI) in single-model and single-scale tests.
Abstract（参考訳）: モバイル機器におけるIDV(ID Document Verification)技術は、現代のビジネスオペレーションにおいて普及しているが、ID盗難や詐欺のリスクが高まっている。アイデンティティドキュメント保持者は、通常、インポスタを回避するためにオンラインビデオインタビューに参加する必要がある。しかし、現在のIDVプロセスは、非効率で高価なオンラインステップバイステップガイダンスをサポートするために、追加の人的労働力に依存する。既存のAIベースのアプローチのパフォーマンスは、モバイルデバイスのリアルタイムおよび軽量な要求を満たすことはできない。本稿では,リアルタイムIDVのためのエッジインテリジェンス支援アプローチを設計することで,これらの課題に対処する。本稿では,idvプロセスの応答性を向上させるために,モバイル機器用の新しい文書ローカライズモデルであるldrnetを提案する。軽量なバックボーンネットワークに基づいて,ldrnet,コーナーポイント予測,ライン境界予測,ドキュメント分類のための3つの予測ブランチを構築した。我々は,新たな補足的目標,等分割点を設計し,新しい損失関数Line Lossを用いて,アプローチの速度と精度を向上させる。 IDVプロセスに加えて、LDRNetはあらゆる種類のモバイルアプリケーションに対して効率的で信頼性の高いドキュメントローカライゼーションの代替手段である。実証として、LDRNetと一般的な文書データセットのローカライズに関する一般的なアプローチを比較した。実験の結果, LDRNetは最大790 FPSで47倍高速で動作し, シングルモデルおよびシングルスケールテストではJaccard Index(JI)に匹敵する性能を示した。

関連論文リスト

Model Editing for New Document Integration in Generative Information Retrieval [110.90609826290968]
生成検索(GR)は文書識別子(docID)の生成として情報検索(IR)タスクを再構成する既存のGRモデルは、新たに追加されたドキュメントへの一般化が不十分で、しばしば正しいドキュメントIDを生成できない。 DOMEは,GRモデルを非表示文書に効果的かつ効率的に適応する新しい手法である。
論文参考訳（メタデータ） (2026-03-03T09:13:38Z)
Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。汎用OmniDocBenchに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2026-02-13T14:22:10Z)
Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detection? [57.000348519630286]
モバイルエッジコンピューティングの最近の進歩により、高精度ニューラルネットワークを備えたエッジサーバに集約的なオブジェクト検出をオフロードすることが可能になった。このハイブリッドアプローチは有望なソリューションを提供するが、新たな課題として、エッジ検出とローカルトラッキングのタイミングを決定する。局所的なトラッキングとエッジ検出を適応的に選択する深層強化学習に基づくアルゴリズムである単一デバイス環境での LTED-Ada を提案する。
論文参考訳（メタデータ） (2025-11-25T04:54:51Z)
Exploring Light-Weight Object Recognition for Real-Time Document Detection [1.623310884498926]
リアルタイム文書の検出と修正は、主に文献によって探索されていないニッチである。我々は、ライセンスプレート検出ネットワークであるIWPOD-Netを適応させ、合成IDカードデータセットであるNBIDで検出するように訓練する。我々は,我々のモデルは,競合するOCR品質指標を維持しながら,現在の最先端ソリューションよりも小さく,効率的であることを示す。
論文参考訳（メタデータ） (2025-09-07T23:58:28Z)
On the Reproducibility of Learned Sparse Retrieval Adaptations for Long Documents [2.186901738997927]
長い文書にLearned Sparse Retrieval(LSR)を適用するメカニズムを再現し検討する。実験の結果,文書検索性能は第1セグメントが支配的であり,各セグメントの重要性が確認された。提案手法であるExactSDMとSoftSDMを文書の長さによって再評価した。
論文参考訳（メタデータ） (2025-03-31T08:19:31Z)
Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。 Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-18T15:56:34Z)
Geometry Restoration and Dewarping of Camera-Captured Document Images [0.0]
本研究では,カメラが捉えた紙文書のデジタル画像のトポロジを復元する手法の開発に焦点をあてる。本手法では,文書アウトライン検出に深層学習(DL)を用い,次いでコンピュータビジョン(CV)を用いてトポロジカル2Dグリッドを作成する。
論文参考訳（メタデータ） (2025-01-06T17:12:19Z)
DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。 HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文参考訳（メタデータ） (2024-09-18T11:34:28Z)
Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文参考訳（メタデータ） (2024-06-25T22:50:48Z)
Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection [28.15184715270483]
大きな言語モデル (LLM) は、検索によって強化され、堅牢な性能と広範な汎用性を示す。本稿では,スパースRAGという新しいパラダイムを提案する。 Sparse RAGは、検索したドキュメントを並列にエンコードする。
論文参考訳（メタデータ） (2024-05-25T11:10:04Z)
Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。 GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文参考訳（メタデータ） (2024-05-21T11:59:36Z)
SeDR: Segment Representation Learning for Long Documents Dense Retrieval [17.864362372788374]
長文Dense Retrieval(SeDR)のためのセグメンテーション表現学習を提案する。 SeDRは長いドキュメントを文書認識とセグメント認識の表現にエンコードするが、分割とプーリングの複雑さを保っている。 MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2022-11-20T01:28:44Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2021-11-30T18:55:19Z)
A Deep Value-network Based Approach for Multi-Driver Order Dispatching [55.36656442934531]
そこで本研究では,注文発送のための深層強化学習に基づくソリューションを提案する。 DiDiの配車プラットフォーム上で大規模なオンラインA/Bテストを実施している。その結果,CVNetは近年提案されているディスパッチ手法よりも一貫して優れていた。
論文参考訳（メタデータ） (2021-06-08T16:27:04Z)
Autodidactic Neurosurgeon: Collaborative Deep Inference for Mobile Edge Intelligence via Online Learning [19.013102763434794]
本稿では,資源制約のあるモバイルデバイスと強力なエッジサーバとの間に協調的な深層推論システムを構築する。我々のシステムには、Autodidactic Neurosurgeon (ANS)と呼ばれるオンライン学習モジュールが組み込まれており、最適な分割点を自動的に学習する。 ANSは、トラッキングシステムの変更とエンドツーエンドの推論遅延の低減の観点から、最先端のベンチマークを著しく上回る。
論文参考訳（メタデータ） (2021-02-02T18:50:06Z)
Achieving Real-Time LiDAR 3D Object Detection on a Mobile Device [53.323878851563414]
本稿では,強化学習技術を用いたネットワーク拡張とpruning検索を組み込んだコンパイラ対応統一フレームワークを提案する。具体的には,リカレントニューラルネットワーク(RNN)を用いて,ネットワークの強化とプルーニングの両面での統一的なスキームを自動で提供する。提案手法は,モバイルデバイス上でのリアルタイム3次元物体検出を実現する。
論文参考訳（メタデータ） (2020-12-26T19:41:15Z)
A Fast Fully Octave Convolutional Neural Network for Document Image Segmentation [1.8426817621478804]
ID画像中の文書のエッジやテキスト領域を検出するためのU-Netに基づく手法について検討する。本研究では,オクタベ・コンボリューションに基づくモデル最適化手法を提案する。その結果,提案手法はセグメンテーションタスクの文書化やポータブル化に有効であることがわかった。
論文参考訳（メタデータ） (2020-04-03T00:57:33Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。