論文の概要: Seeing Straight: Document Orientation Detection for Efficient OCR
- arxiv url: http://arxiv.org/abs/2511.04161v1
- Date: Thu, 06 Nov 2025 08:04:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.358573
- Title: Seeing Straight: Document Orientation Detection for Efficient OCR
- Title(参考訳): Seeing Straight: 効率的なOCRのためのドキュメント指向検出
- Authors: Suranjan Goswami, Abhinav Ravi, Raja Kolla, Ali Faraz, Shaharukh Khan, Akash, Chandra Khatri, Shubham Agarwal,
- Abstract要約: OCR-回転ベンチ(OCR-Rotation-Bench, OCR-Rotation-Bench)は、OCRを画像回転に評価するための新しいベンチマークである。
Phi-3.5-Visionモデルのビジョンエンコーダ上に構築した高速で堅牢で軽量な回転分類パイプラインを提案する。
本手法は,両データセットの回転の同定において,ほぼ完全な 96% と 92% の精度を実現する。
- 参考スコア(独自算出の注目度): 2.7873355152549344
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in document understanding, determining the correct orientation of scanned or photographed documents remains a critical pre-processing step in the real world settings. Accurate rotation correction is essential for enhancing the performance of downstream tasks such as Optical Character Recognition (OCR) where misalignment commonly arises due to user errors, particularly incorrect base orientations of the camera during capture. In this study, we first introduce OCR-Rotation-Bench (ORB), a new benchmark for evaluating OCR robustness to image rotations, comprising (i) ORB-En, built from rotation-transformed structured and free-form English OCR datasets, and (ii) ORB-Indic, a novel multilingual set spanning 11 Indic mid to low-resource languages. We also present a fast, robust and lightweight rotation classification pipeline built on the vision encoder of Phi-3.5-Vision model with dynamic image cropping, fine-tuned specifically for 4-class rotation task in a standalone fashion. Our method achieves near-perfect 96% and 92% accuracy on identifying the rotations respectively on both the datasets. Beyond classification, we demonstrate the critical role of our module in boosting OCR performance: closed-source (up to 14%) and open-weights models (up to 4x) in the simulated real-world setting.
- Abstract(参考訳): 文書理解の大幅な進歩にもかかわらず、スキャンされたあるいは撮影された文書の正しい向きを決定することは、現実世界の設定において重要な前処理ステップである。
正確な回転補正は、ユーザエラー、特にキャプチャ中のカメラの不正なベースオリエンテーションによる誤調整が頻繁に発生する光学文字認識(OCR)などの下流タスクの性能向上に不可欠である。
本研究では,OCR-回転ベンチ(OCR-Rotation-Bench,ORB)を画像回転に対するOCRロバスト性評価のための新しいベンチマークとして紹介する。
一 回転変換構造付き自由形英語OCRデータセットから構築したORB-En及び
(ii)ORB-Indicは11 Indic中級から低リソース言語にまたがる新しい多言語集合である。
また,Phi-3.5-Visionモデルの視覚エンコーダ上に構築された高速で頑健で軽量な回転分類パイプラインを,動画像トリミングにより構築する。
本手法は,両データセットの回転の同定において,ほぼ完全な 96% と 92% の精度を実現する。
分類以外にも、実世界のシミュレーション環境では、OCRパフォーマンスを高める上で、我々のモジュールが持つ重要な役割を、クローズドソース(最大14%)とオープンウェイトモデル(最大4倍)で示しています。
関連論文リスト
- Rotation Equivariant Arbitrary-scale Image Super-Resolution [62.41329042683779]
任意のスケールの超解像(ASISR)は、低解像度の入力画像から任意のスケールの高分解能回復を実現することを目的としている。
本研究では, 回転同変ASISR法の構築に尽力する。
論文 参考訳(メタデータ) (2025-08-07T08:51:03Z) - Feature Alignment with Equivariant Convolutions for Burst Image Super-Resolution [52.55429225242423]
本稿では,同変畳み込みに基づくアライメントを特徴とするBurst Image Super-Resolution (BISR) のための新しいフレームワークを提案する。
これにより、アライメント変換は画像領域の明示的な監督を通じて学習でき、特徴領域に容易に適用できる。
BISRベンチマークの実験は、定量的メトリクスと視覚的品質の両方において、我々のアプローチの優れた性能を示している。
論文 参考訳(メタデータ) (2025-03-11T11:13:10Z) - Mixed Text Recognition with Efficient Parameter Fine-Tuning and Transformer [12.966765239586994]
本稿では,事前学習したOCR変換器に基づくパラメータ効率の高いハイブリッドテキストスポッティング手法であるDLoRA-TrOCRを提案する。
重み分解されたDoRAモジュールを画像エンコーダに、LoRAモジュールをテキストデコーダに埋め込むことで、様々な下流タスクを効率的に微調整することができる。
実験により,提案したDLoRA-TrOCRは,手書き,印刷,ストリートテキストを混合した複雑なシーン認識において,他のパラメータ効率の高い微調整手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-19T09:28:16Z) - SPE-Net: Boosting Point Cloud Analysis via Rotation Robustness
Enhancement [118.20816888815658]
SPE-Netという名前の3Dポイントクラウドアプリケーションに適した新しいディープアーキテクチャを提案する。
埋め込みSelective Position variant' の手順は、入力の根底にある回転条件に効果的に対応できる注意機構に依存している。
SPE-Netと関連する仮説の利点を4つのベンチマークで示し、SOTA法よりも回転試験データと回転試験データの両方に明らかな改善点を示した。
論文 参考訳(メタデータ) (2022-11-15T15:59:09Z) - Rolling Shutter Inversion: Bring Rolling Shutter Images to High
Framerate Global Shutter Video [111.08121952640766]
本稿では,RS時相超解問題に対する新しいディープラーニングに基づく解法を提案する。
RSイメージングプロセスの多視点幾何関係を利用して,高フレームレートGS生成を実現する。
提案手法は,高精細で高品質なGS画像系列を生成でき,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2022-10-06T16:47:12Z) - An Evaluation of OCR on Egocentric Data [30.637021477342035]
本稿では,エゴセントリックデータに対する最先端OCR手法の評価を行う。
既存のOCR手法は、処理対象に対して頻繁に観察される回転テキストと競合することを示す。
我々は、正規化編集距離誤差を半減する事前学習されたOCRモデルに適用可能な、シンプルな回転・合流手順を提案する。
論文 参考訳(メタデータ) (2022-06-11T10:37:20Z) - Lights, Camera, Action! A Framework to Improve NLP Accuracy over OCR
documents [2.6201102730518606]
我々は、下流のNLPタスクに対してOCRエラーを軽減するための効果的なフレームワークを実証する。
まず,文書合成パイプラインを構築することにより,モデル学習におけるデータ不足問題に対処する。
コミュニティの利益のために、私たちはドキュメント合成パイプラインをオープンソースプロジェクトとして利用可能にしました。
論文 参考訳(メタデータ) (2021-08-06T00:32:54Z) - Robust Reference-based Super-Resolution via C2-Matching [77.51610726936657]
超解像(Ref-SR)は、最近、高分解能(HR)参照画像を導入して、低分解能(LR)入力画像を強化するための有望なパラダイムとして登場した。
既存のRef-SR法は主に暗黙の対応に頼り、参照画像からHRテクスチャを借用し、入力画像の情報損失を補う。
本稿では,C2-Matchingを提案する。
論文 参考訳(メタデータ) (2021-06-03T16:40:36Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。