論文の概要: Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation
- arxiv url: http://arxiv.org/abs/2505.18925v1
- Date: Sun, 25 May 2025 01:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.755749
- Title: Words as Geometric Features: Estimating Homography using Optical Character Recognition as Compressed Image Representation
- Title(参考訳): 幾何学的特徴としての単語:圧縮画像表現としての光学的文字認識を用いたホログラフィーの推定
- Authors: Ross Greer, Alisha Ukani, Katherine Izhikevich, Earlence Fernandes, Stefan Savage, Alex C. Snoeren,
- Abstract要約: ドキュメントアライメントは、自動フォーム処理、異常検出、ワークフロー自動化など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。
文書アライメントの伝統的な手法は、ホモグラフのような幾何学的変換を推定するために、キーポイント、エッジ、テクスチャのような画像ベースの特徴に依存している。
本稿では,光学文字認識(OCR)出力をホモグラフィー推定の特徴として活用する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 6.385732495789276
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document alignment and registration play a crucial role in numerous real-world applications, such as automated form processing, anomaly detection, and workflow automation. Traditional methods for document alignment rely on image-based features like keypoints, edges, and textures to estimate geometric transformations, such as homographies. However, these approaches often require access to the original document images, which may not always be available due to privacy, storage, or transmission constraints. This paper introduces a novel approach that leverages Optical Character Recognition (OCR) outputs as features for homography estimation. By utilizing the spatial positions and textual content of OCR-detected words, our method enables document alignment without relying on pixel-level image data. This technique is particularly valuable in scenarios where only OCR outputs are accessible. Furthermore, the method is robust to OCR noise, incorporating RANSAC to handle outliers and inaccuracies in the OCR data. On a set of test documents, we demonstrate that our OCR-based approach even performs more accurately than traditional image-based methods, offering a more efficient and scalable solution for document registration tasks. The proposed method facilitates applications in document processing, all while reducing reliance on high-dimensional image data.
- Abstract(参考訳): ドキュメントアライメントと登録は、自動フォーム処理、異常検出、ワークフロー自動化など、多くの現実世界のアプリケーションにおいて重要な役割を果たす。
文書アライメントの伝統的な手法は、ホモグラフのような幾何学的変換を推定するために、キーポイント、エッジ、テクスチャのような画像ベースの特徴に依存している。
しかしながら、これらのアプローチは、プライバシ、ストレージ、送信制限のために常に利用できるとは限らない、オリジナルのドキュメントイメージへのアクセスを必要とすることが多い。
本稿では,光学文字認識(OCR)出力をホモグラフィー推定の特徴として活用する新しい手法を提案する。
OCR検出された単語の空間的位置とテキストの内容を利用することで、画素レベルの画像データに頼ることなく文書のアライメントを可能にする。
この手法は、OCR出力のみがアクセス可能なシナリオで特に有用である。
さらに、この手法はOCRノイズに対して頑健であり、RANSACを組み込んでOCRデータの外れ値や不正確な処理を行う。
テスト文書のセットでは、OCRベースのアプローチが従来の画像ベースの手法よりも正確に動作し、文書登録タスクに対してより効率的でスケーラブルなソリューションを提供することを示した。
提案手法は,高次元画像データへの依存を低減しつつ,文書処理の応用を容易にする。
関連論文リスト
- TFIC: End-to-End Text-Focused Image Compression for Coding for Machines [50.86328069558113]
後続の光学文字認識(OCR)のためのテキスト固有の特徴を保持するために設計された画像圧縮システムを提案する。
我々のエンコーディングプロセスはOCRモジュールに必要な時間の半分を必要としており、計算能力に制限のあるデバイスに特に適しています。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - UNIT: Unifying Image and Text Recognition in One Vision Encoder [51.140564856352825]
UNITは、単一のモデル内で画像とテキストの認識を統一することを目的とした、新しいトレーニングフレームワークである。
文書関連タスクにおいて,UNITが既存の手法を著しく上回ることを示す。
注目すべきなのは、UNITはオリジナルのビジョンエンコーダアーキテクチャを保持しており、推論とデプロイメントの点で費用がかからないことだ。
論文 参考訳(メタデータ) (2024-09-06T08:02:43Z) - Optimization of Image Processing Algorithms for Character Recognition in
Cultural Typewritten Documents [0.8158530638728501]
光文字認識(OCR)における画像処理手法とパラメータチューニングの影響について検討する。
この手法は多目的問題定式化を用いて、Levenshtein編集距離を最小化し、非支配的ソート遺伝的アルゴリズム(NSGA-II)で正しく同定された単語数を最大化する。
以上の結果から,OCRにおける画像前処理アルゴリズムの活用は,前処理なしのテキスト認識タスクが良い結果を出さないタイプに適している可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-27T11:44:46Z) - DocMAE: Document Image Rectification via Self-supervised Representation
Learning [144.44748607192147]
文書画像修正のための新しい自己教師型フレームワークDocMAEを提案する。
まず、背景を除いた文書画像のランダムなパッチをマスクし、欠落したピクセルを再構成する。
このような自己教師型学習手法により、ネットワークは変形文書の本質的な構造を学習することが奨励される。
論文 参考訳(メタデータ) (2023-04-20T14:27:15Z) - Deep Unrestricted Document Image Rectification [110.61517455253308]
文書画像修正のための新しい統合フレームワークDocTr++を提案する。
我々は,階層型エンコーダデコーダ構造を多スケール表現抽出・解析に適用することにより,元のアーキテクチャをアップグレードする。
実際のテストセットとメトリクスをコントリビュートして、修正品質を評価します。
論文 参考訳(メタデータ) (2023-04-18T08:00:54Z) - Text Detection Forgot About Document OCR [0.0]
本稿では,テキスト認識と文書テキスト認識のためのいくつかの手法を比較した。
この結果から,現在提案されている文書テキスト検出手法は,文書テキスト検出において優れた結果が得られることが示唆された。
論文 参考訳(メタデータ) (2022-10-14T15:37:54Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z) - DocScanner: Robust Document Image Rectification with Progressive
Learning [162.03694280524084]
この研究はDocScannerという、文書画像の修正のための新しいディープネットワークアーキテクチャを提示する。
DocScannerは、修正されたイメージの1つの見積を維持し、再帰的なアーキテクチャで徐々に修正される。
反復的な改善によりDocScannerは堅牢で優れたパフォーマンスに収束し、軽量なリカレントアーキテクチャにより実行効率が保証される。
論文 参考訳(メタデータ) (2021-10-28T09:15:02Z) - Unknown-box Approximation to Improve Optical Character Recognition
Performance [7.805544279853116]
特定のOCRエンジン用にカスタマイズされたプリプロセッサを作成するための新しいアプローチが提示される。
2つのデータセットと2つのOCRエンジンによる実験は、提示されたプリプロセッサがOCRの精度をベースラインから最大46%向上できることを示している。
論文 参考訳(メタデータ) (2021-05-17T16:09:15Z) - Can You Read Me Now? Content Aware Rectification using Angle Supervision [14.095728009592763]
本稿では,文書の修正を初めて学習したアングル・スーパービジョンを用いたコンテンツアウェア・リクティフィケーションについて述べる。
提案手法は,OCRの精度,幾何学的誤差,視覚的類似性の観点から,従来の手法を超越した手法である。
論文 参考訳(メタデータ) (2020-08-05T16:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。