論文の概要: Exploring Light-Weight Object Recognition for Real-Time Document Detection
- arxiv url: http://arxiv.org/abs/2509.06246v1
- Date: Sun, 07 Sep 2025 23:58:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.920398
- Title: Exploring Light-Weight Object Recognition for Real-Time Document Detection
- Title(参考訳): リアルタイム文書検出のための軽量物体認識の探索
- Authors: Lucas Wojcik, Luiz Coelho, Roger Granada, David Menotti,
- Abstract要約: リアルタイム文書の検出と修正は、主に文献によって探索されていないニッチである。
我々は、ライセンスプレート検出ネットワークであるIWPOD-Netを適応させ、合成IDカードデータセットであるNBIDで検出するように訓練する。
我々は,我々のモデルは,競合するOCR品質指標を維持しながら,現在の最先端ソリューションよりも小さく,効率的であることを示す。
- 参考スコア(独自算出の注目度): 1.623310884498926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object Recognition and Document Skew Estimation have come a long way in terms of performance and efficiency. New models follow one of two directions: improving performance using larger models, and improving efficiency using smaller models. However, real-time document detection and rectification is a niche that is largely unexplored by the literature, yet it remains a vital step for automatic information retrieval from visual documents. In this work, we strive towards an efficient document detection pipeline that is satisfactory in terms of Optical Character Recognition (OCR) retrieval and faster than other available solutions. We adapt IWPOD-Net, a license plate detection network, and train it for detection on NBID, a synthetic ID card dataset. We experiment with data augmentation and cross-dataset validation with MIDV (another synthetic ID and passport document dataset) to find the optimal scenario for the model. Other methods from both the Object Recognition and Skew Estimation state-of-the-art are evaluated for comparison with our approach. We use each method to detect and rectify the document, which is then read by an OCR system. The OCR output is then evaluated using a novel OCR quality metric based on the Levenshtein distance. Since the end goal is to improve automatic information retrieval, we use the overall OCR quality as a performance metric. We observe that with a promising model, document rectification does not have to be perfect to attain state-of-the-art performance scores. We show that our model is smaller and more efficient than current state-of-the-art solutions while retaining a competitive OCR quality metric. All code is available at https://github.com/BOVIFOCR/iwpod-doc-corners.git
- Abstract(参考訳): オブジェクト認識とドキュメントスキュー推定は、パフォーマンスと効率の点で長い道のりをたどっています。
新しいモデルは、より大きなモデルによるパフォーマンスの改善と、より小さなモデルによる効率の改善の2つの方向の1つである。
しかし、リアルタイム文書の検出と修正は、主に文献によって探索されていないニッチであるが、ビジュアル文書からの自動情報検索にとって重要なステップである。
本研究は,光学文字認識(OCR)の検索に満足し,利用可能な他のソリューションよりも高速な,効率的な文書検出パイプラインの実現を目指している。
我々は、ライセンスプレート検出ネットワークであるIWPOD-Netを適応させ、合成IDカードデータセットであるNBIDで検出するように訓練する。
MIDV(別の合成IDとパスポート文書データセット)を用いてデータ拡張とクロスデータセット検証を行い、モデルに最適なシナリオを見つける。
対象認識とスキュー推定の双方から得られた他の手法を,本手法との比較により評価した。
我々は各手法を用いて文書を検出し、修正し、OCRシステムで読み取る。
OCRの出力は、レベンシュテイン距離に基づく新しいOCR品質測定値を用いて評価される。
最終目標は、自動情報検索を改善することなので、OCRの全体的な品質をパフォーマンス指標として使用します。
我々は、有望なモデルで、文書の修正が最先端のパフォーマンススコアを得るのに完璧である必要はないことを観察する。
我々は,我々のモデルは,競合するOCR品質指標を維持しながら,現在の最先端ソリューションよりも小さく,効率的であることを示す。
すべてのコードはhttps://github.com/BOVIFOCR/iwpod-doc-corners.gitで入手できる。
関連論文リスト
- ABCD-LINK: Annotation Bootstrapping for Cross-Document Fine-Grained Links [57.514511353084565]
我々は、最高のパフォーマンスのアプローチを選択し、文書間リンクに注釈を付けるための新しいドメインに依存しないフレームワークを提案する。
当社のフレームワークを2つの異なるドメイン – ピアレビューとニュース – に適用しています。
結果として得られた新しいデータセットは、メディアフレーミングやピアレビューなど、数多くのクロスドキュメントタスクの基礎を築いた。
論文 参考訳(メタデータ) (2025-09-01T11:32:24Z) - Improving Document Retrieval Coherence for Semantically Equivalent Queries [63.97649988164166]
同じ文書を検索する際のモデルのコヒーレンスを改善する訓練DRにおける多段階ランク付け損失のバリエーションを提案する。
この損失は、多様だがセマンティックな等価なクエリのために検索されたトップkランクのドキュメント間の不一致を罰する。
論文 参考訳(メタデータ) (2025-08-11T13:34:59Z) - Geometry Restoration and Dewarping of Camera-Captured Document Images [0.0]
本研究では,カメラが捉えた紙文書のデジタル画像のトポロジを復元する手法の開発に焦点をあてる。
本手法では,文書アウトライン検出に深層学習(DL)を用い,次いでコンピュータビジョン(CV)を用いてトポロジカル2Dグリッドを作成する。
論文 参考訳(メタデータ) (2025-01-06T17:12:19Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z) - OCR-IDL: OCR Annotations for Industry Document Library Dataset [8.905920197601171]
商用OCRエンジンを用いたIDL文書のOCRアノテーションを公開する。
寄付されたデータセット(OCR-IDL)は20万USドル以上と見積もられている。
論文 参考訳(メタデータ) (2022-02-25T21:30:48Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z) - OCR Graph Features for Manipulation Detection in Documents [11.193867567895353]
OCR(Optical Character Recognition)を用いたグラフ特徴量を利用したモデルを提案する。
本モデルは,OCR特徴量に基づいてランダムな森林分類器を訓練することにより,変化を検出するためのデータ駆動型手法に依存している。
我々は,本アルゴリズムの偽造検出性能を,若干の偽造不完全な実業務文書から構築したデータセット上で評価した。
論文 参考訳(メタデータ) (2020-09-10T21:50:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。