論文の概要: Handheld Video Document Scanning: A Robust On-Device Model for Multi-Page Document Scanning
- arxiv url: http://arxiv.org/abs/2411.00576v1
- Date: Fri, 01 Nov 2024 13:34:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:15.711967
- Title: Handheld Video Document Scanning: A Robust On-Device Model for Multi-Page Document Scanning
- Title(参考訳): ハンドヘルドビデオドキュメンテーション:マルチページドキュメンテーションスキャンのためのロバストオンデバイスモデル
- Authors: Curtis Wigington,
- Abstract要約: 本稿では,ユーザが文書のページをめくると,ビデオストリームから複数ページの文書を自動的にスキャンする手法を提案する。
本手法はハンドヘルドスキャンに固有の動作と不安定性に対して頑健であるように訓練されている。
- 参考スコア(独自算出の注目度): 5.397580270193713
- License:
- Abstract: Document capture applications on smartphones have emerged as popular tools for digitizing documents. For many individuals, capturing documents with their smartphones is more convenient than using dedicated photocopiers or scanners, even if the quality of digitization is lower. However, using a smartphone for digitization can become excessively time-consuming and tedious when a user needs to digitize a document with multiple pages. In this work, we propose a novel approach to automatically scan multi-page documents from a video stream as the user turns through the pages of the document. Unlike previous methods that required constrained settings such as mounting the phone on a tripod, our technique is designed to allow the user to hold the phone in their hand. Our technique is trained to be robust to the motion and instability inherent in handheld scanning. Our primary contributions in this work include: (1) an efficient, on-device deep learning model that is accurate and robust for handheld scanning, (2) a novel data collection and annotation technique for video document scanning, and (3) state-of-the-art results on the PUCIT page turn dataset.
- Abstract(参考訳): スマートフォン上の文書キャプチャアプリケーションは、文書をデジタル化する一般的なツールとして登場してきた。
多くの人にとっては、デジタル化の質が低い場合でも、専用のコピー機やスキャナーを使用するよりも、スマートフォンで文書をキャプチャする方が便利である。
しかし、ユーザが複数のページで文書をデジタル化する必要がある場合、スマートフォンをデジタル化するのに時間がかかり、面倒になりがちである。
本研究では,ユーザが文書のページをめくると,ビデオストリームから複数ページの文書を自動的にスキャンする手法を提案する。
三脚にスマートフォンを装着するといった制約のある設定を必要とする従来の方法とは異なり、我々の技術はユーザーが携帯を手に持てるように設計されている。
本手法はハンドヘルドスキャンに固有の動作と不安定性に対して頑健であるように訓練されている。
本研究の主な貢献は,(1)ハンドヘルドスキャンにおいて正確かつ堅牢なデバイス上でのディープラーニングモデル,(2)ビデオ文書スキャンのための新しいデータ収集およびアノテーション技術,(3)PUCITページターンデータセットの最先端結果である。
関連論文リスト
- mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Compression effects and scene details on the source camera identification of digital videos [14.105727639288316]
特定のデジタルビデオの真正性や完全性を保証するために、法医学的分析機構を導入することが不可欠である。
モバイルデバイスからのデジタルビデオの取得元を特定する手法を提案する。
論文 参考訳(メタデータ) (2024-02-07T09:14:18Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the
Frequency Domain for Versatile Document Understanding [98.41782470335032]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - ShabbyPages: A Reproducible Document Denoising and Binarization Dataset [59.457999432618614]
ShabbyPagesは新しいドキュメントイメージデータセットである。
本稿では,ShabbyPagesの作成プロセスについて議論し,人間の知覚力の高い実雑音の特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。
論文 参考訳(メタデータ) (2023-03-16T14:19:50Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - ScanBank: A Benchmark Dataset for Figure Extraction from Scanned
Electronic Theses and Dissertations [3.4252676314771144]
本研究は,電子的論文・論文(ETD)に焦点をあて,アクセス性の向上と実用性の向上を目的としている。
デジタルPDFから図形や表を抽出する手法が提案されているが、スキャンされたETDではうまく機能しない。
この制限に対処するため、ScanBankという1万ページの画像をスキャンした新しいデータセットを提示する。
このデータセットを用いて、YOLOv5に基づくディープニューラルネットワークモデルをトレーニングし、スキャンされたETDから数値とテーブルを正確に抽出する。
論文 参考訳(メタデータ) (2021-06-23T04:43:56Z) - Automated Video Labelling: Identifying Faces by Corroborative Evidence [79.44208317138784]
本稿では,複数のエビデンスソースと複数のモダリティを組み合わせることで,テレビ放送などのビデオアーカイブ内のすべての顔を自動的にラベル付けする手法を提案する。
本研究では,人物が有名であるか否かを画像検索エンジンを用いて判定する,新しい,シンプルな手法を提案する。
あまり有名でない人であっても、画像検索エンジンは、シーンやスピーチで命名された顔の正確なラベル付けに役立てることができる。
論文 参考訳(メタデータ) (2021-02-10T18:57:52Z) - On-Device Document Classification using multimodal features [3.180188886143297]
単一のモダリティは分類に不十分であることを示し、デバイス上で文書を分類するための新しいパイプラインを示す。
我々は,光学文字認識(OCR)のためのオープンソースライブラリと,パイプラインに新たなモデルアーキテクチャを統合する。
この分類モデルを標準のマルチモーダルデータセットfood-101でベンチマークし、30%のモデル圧縮で以前の技術と競合する結果を示す。
論文 参考訳(メタデータ) (2021-01-06T05:36:58Z) - Source Printer Identification from Document Images Acquired using
Smartphone [14.889347839830092]
我々は,文字画像とプリンタ固有のノイズ残差の融合から,単一のCNNモデルを学習することを提案する。
提案手法は,5x2クロスバリデーション手法を用いて,文字「e」の画像を用いた98.42%の文書分類精度を実現する。
論文 参考訳(メタデータ) (2020-03-27T18:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。