Fugu-MT 論文翻訳(概要): Benchmarking OCR Pipelines with Adaptive Enhancement for Multi-Domain Retail Bill Digitization

論文の概要: Benchmarking OCR Pipelines with Adaptive Enhancement for Multi-Domain Retail Bill Digitization

arxiv url: http://arxiv.org/abs/2604.25176v1
Date: Tue, 28 Apr 2026 03:31:27 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-29 16:49:17.696069
Title: Benchmarking OCR Pipelines with Adaptive Enhancement for Multi-Domain Retail Bill Digitization
Title（参考訳）: マルチドメインリテール化のための適応的拡張によるOCRパイプラインのベンチマーク
Authors: Vijaysinh Gaikwad,
Abstract要約: 本稿では,小売請求書のデジタル化のための知的かつ品質に配慮した適応型光文字認識パイプラインの提案とベンチマークを行う。 360枚の不均質な請求書画像の実際のデータセットを用いて実験を行った。提案したパイプラインは18.4%の文字誤り率(CER)と27.6%のワード誤り率(WER)を達成し、それぞれ26.4%と31.2%の改善率を示している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The digitization of multi-domain retail billing documents remains a challenging task due to variability in scan quality, layout heterogeneity, and domain diversity across commercial sectors. This paper proposes and benchmarks an intelligent, quality-aware adaptive Optical Character Recognition (OCR) pipeline for retail bill digitization spanning five domains: grocery stores, restaurants, hardware shops, footwear outlets, and clothing retailers. The proposed system integrates a Convolutional Neural Network (CNN)-based image enhancement module trained via self-supervised denoising, a Laplacian variance-based image quality analyzer with three-tier routing, a confidence-driven adaptive feedback loop with iterative retry, and an NLP-based post-OCR correction layer. Experiments were conducted on a real-world dataset of 360 heterogeneous retail bill images. Ground truth for quantitative evaluation was generated using an OCR ensemble majority voting strategy, a validated approach for scenarios without manual annotation. The proposed pipeline achieves a Character Error Rate (CER) of 18.4% and Word Error Rate (WER) of 27.6%, representing improvements of 26.4% and 31.2% respectively over the Raw Tesseract baseline. The pipeline additionally achieves a text density of 108.3 words per image, a noise ratio of 2.3%, and a processing time of 3.64 seconds per image - a 6.4x speed advantage over EasyOCR. Image quality PSNR analysis on enhanced MEDIUM and LOW quality images yields an average of 28.7 dB, confirming meaningful enhancement. These results establish a reproducible benchmark for multi-domain retail bill OCR research.
Abstract（参考訳）: マルチドメイン小売請求書のデジタル化は、スキャン品質の変動、レイアウトの不均一性、および商業分野におけるドメインの多様性により、依然として困難な課題である。本稿では、食料品店、レストラン、ハードウェアショップ、靴店、衣料品小売店の5つの領域にまたがる小売請求書デジタル化のための、知的で品質に配慮した適応型光学文字認識(OCR)パイプラインを提案し、ベンチマークする。提案システムは,自己教師型復調法を用いて訓練された畳み込みニューラルネットワーク(CNN)ベースの画像強調モジュール,3階層のルーティングを備えたラプラシア分散に基づく画像品質解析器,反復再試行による信頼駆動適応フィードバックループ,NLPベースのポストOCR補正層を統合した。 360枚の不均質な請求書画像の実際のデータセットを用いて実験を行った。 OCRアンサンブルの多数決戦略を用いて, 定量的評価のための基礎的真理を作成した。提案したパイプラインは18.4%の文字誤り率(CER)と27.6%のワード誤り率(WER)を達成し、それぞれ26.4%と31.2%の改善率を示している。パイプラインはさらに、1画像あたり108.3ワードのテキスト密度、2.3%のノイズ比、1画像あたり3.64秒の処理時間を達成している。造影媒体および低画質画像の画質PSNR分析では、平均28.7dBとなり、有意義な増強が確認される。これらの結果は、マルチドメイン小売法OCR研究のための再現可能なベンチマークを確立した。

関連論文リスト

Understanding vision transformer robustness through the lens of out-of-distribution detection [59.72757235382676]
量子化はメモリと推論コストを削減し、性能損失のリスクを負う。本稿では, 量子化小型可変ビジョントランス (DeiT, DeiT3, ViT) の共通アウト・オブ・ディストリビューション (OOD) データセットにおける挙動について検討する。
論文参考訳（メタデータ） (2026-02-01T22:00:59Z)
Burst Image Quality Assessment: A New Benchmark and Unified Framework for Multiple Downstream Tasks [61.47169388925803]
本稿では,バースト画像品質評価(BuIQA)の新たなタスクを提案し,バーストシーケンス内の各フレームのタスク駆動品質を評価する。データ分析にインスパイアされた統合BuIQAフレームワークは、さまざまな下流シナリオ下でのBuIQAの効率的な適応を実現するために提案されている。
論文参考訳（メタデータ） (2025-11-11T08:15:52Z)
E-ARMOR: Edge case Assessment and Review of Multilingual Optical Character Recognition [3.186993645370078]
本研究では,資源制約環境におけるエッジ配置に最適化された新しいOCRシステムであるSprinklr-Edge-OCRを紹介する。本稿では,5つの最先端LVLM(InternVL, Qwen, GOT OCR, LLaMA, MiniCPM)と2つの従来のOCRシステム(Sprinklr-Edge-OCR, SuryaOCR)を比較した。この結果から,エッジデプロイメントに最適なOCRシステムは,計算要求の低さ,低さ,従来のOCRシステムであることがわかった。
論文参考訳（メタデータ） (2025-09-03T18:08:41Z)
DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation [0.0]
本稿では、ResNetとVision TransformerのバックボーンとDeformable Convolutions, Retrieval-Augmented Generation, Conditional Random Fields (CRF)などの高度な方法論を組み合わせた新しいエンドツーエンドフレームワークを提案する。 6つのベンチマークデータセットで実施された実験は、テキスト認識のための新しい最先端技術を確立し、多種多様な挑戦的なデータセットにまたがるアプローチの堅牢性を示す。
論文参考訳（メタデータ） (2025-05-07T07:06:04Z)
REJEPA: A Novel Joint-Embedding Predictive Architecture for Efficient Remote Sensing Image Retrieval [11.105541122596003]
REJEPA(Retrieval with Joint-Embedding Predictive Architecture)は、RS-CBIR用に設計された革新的な自己管理型フレームワークである。空間的に分散したコンテキストトークンエンコーディングを使用して、ターゲットトークンの抽象表現を予測する。ピクセル再構成ベースラインと比較して計算複雑性を40-60%削減する。
論文参考訳（メタデータ） (2025-04-04T04:59:10Z)
How Quality Affects Deep Neural Networks in Fine-Grained Image Classification [0.799543372823325]
粒度分類システムの性能を高めるために,非参照画像品質評価(NRIQA)誘導カットオフポイント選択(CPS)戦略を提案する。最も一般的に採用されている3つのイメージ拡張設定 -- トリミング、回転、ぼやけた -- をエントリポイントとしています。具体的には、これらの方法によって得られるカットオフポイントは、多数決によって集約され、画像サブセット選択のプロセスが通知される。
論文参考訳（メタデータ） (2024-05-09T12:59:11Z)
LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。 125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-04T15:34:12Z)
BAND-2k: Banding Artifact Noticeable Database for Banding Detection and Quality Assessment [52.1640725073183]
バンディングは階段のような輪郭としても知られ、圧縮または量子化アルゴリズムによって処理された画像やビデオの平坦な領域で頻繁に発生する。これまでに2000枚のバンド化画像からなるBanding Artifact Noticeable Database (BAND-2k) という,最大のBanding IQAデータベースを構築した。デュアル畳み込みニューラルネットワークを用いて、高周波および低周波マップから特徴表現を同時に学習する。
論文参考訳（メタデータ） (2023-11-29T15:56:31Z)
Recurrence With Correlation Network for Medical Image Registration [66.63200823918429]
本稿では,医療画像登録ネットワークであるRecurrence with correlation Network (RWCNet)について述べる。これらの特徴により、2つの画像登録データセットにおける医用画像登録精度が向上することが実証された。
論文参考訳（メタデータ） (2023-02-05T02:41:46Z)
Distortion-Aware Loop Filtering of Intra 360^o Video Coding with Equirectangular Projection [81.63407194858854]
等角射影(ERP)フォーマットで投影された360$o$ビデオの符号化性能を向上させるため,歪みを考慮したループフィルタリングモデルを提案する。提案モジュールは、符号化ユニット(CU)パーティションマスクに基づいてコンテンツ特性を分析し、部分的畳み込みによって処理し、指定された領域を活性化する。
論文参考訳（メタデータ） (2022-02-20T12:00:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。