Fugu-MT 論文翻訳(概要): 3D Rendering Framework for Data Augmentation in Optical Character Recognition

論文の概要: 3D Rendering Framework for Data Augmentation in Optical Character Recognition

arxiv url: http://arxiv.org/abs/2209.14970v1
Date: Tue, 27 Sep 2022 19:31:23 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-30 18:04:07.484145
Title: 3D Rendering Framework for Data Augmentation in Optical Character Recognition
Title（参考訳）: 光文字認識におけるデータ拡張のための3次元レンダリングフレームワーク
Authors: Andreas Spruck, Maximiliane Hawesch, Anatol Maier, Christian Riess, J\"urgen Seiler, Andr\'e Kaup
Abstract要約: 光文字認識(OCR)のためのデータ拡張フレームワークを提案する。提案するフレームワークは,新しい視角と照明シナリオを合成することができる。一般的な Brno Mobile OCR データセットの 15% サブセットを増設することで,フレームワークの性能を実証する。
参考スコア（独自算出の注目度）: 8.641647607173864
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a data augmentation framework for Optical Character Recognition (OCR). The proposed framework is able to synthesize new viewing angles and illumination scenarios, effectively enriching any available OCR dataset. Its modular structure allows to be modified to match individual user requirements. The framework enables to comfortably scale the enlargement factor of the available dataset. Furthermore, the proposed method is not restricted to single frame OCR but can also be applied to video OCR. We demonstrate the performance of our framework by augmenting a 15% subset of the common Brno Mobile OCR dataset. Our proposed framework is capable of leveraging the performance of OCR applications especially for small datasets. Applying the proposed method, improvements of up to 2.79 percentage points in terms of Character Error Rate (CER), and up to 7.88 percentage points in terms of Word Error Rate (WER) are achieved on the subset. Especially the recognition of challenging text lines can be improved. The CER may be decreased by up to 14.92 percentage points and the WER by up to 18.19 percentage points for this class. Moreover, we are able to achieve smaller error rates when training on the 15% subset augmented with the proposed method than on the original non-augmented full dataset.
Abstract（参考訳）: 本稿では,光学文字認識(OCR)のためのデータ拡張フレームワークを提案する。提案されたフレームワークは、利用可能なocrデータセットを効果的に強化し、新しい視野角と照明シナリオを合成することができる。そのモジュール構造は、個々のユーザ要求に合うように修正できる。このフレームワークは利用可能なデータセットの拡大係数を快適にスケールすることができる。さらに,提案手法は単一フレームOCRに限らず,ビデオOCRにも適用可能である。一般的な Brno Mobile OCR データセットの 15% サブセットを増設することで,フレームワークの性能を実証する。提案するフレームワークはOCRアプリケーションの性能を特に小さなデータセットに活用することができる。提案手法の適用により,文字誤り率(CER)の最大2.79ポイント,単語誤り率(WER)の最大7.88ポイントの改善を実現した。特に、難解なテキスト行の認識を改善することができる。 cer は 14.92 パーセンテージポイント、wer は 18.19 パーセンテージポイントまで減少することができる。さらに,提案手法で拡張した15%サブセットのトレーニングにおいて,元の非拡張フルデータセットよりも少ない誤差率を実現することができる。

関連論文リスト

DOTA: Deformable Optimized Transformer Architecture for End-to-End Text Recognition with Retrieval-Augmented Generation [0.0]
本稿では、ResNetとVision TransformerのバックボーンとDeformable Convolutions, Retrieval-Augmented Generation, Conditional Random Fields (CRF)などの高度な方法論を組み合わせた新しいエンドツーエンドフレームワークを提案する。 6つのベンチマークデータセットで実施された実験は、テキスト認識のための新しい最先端技術を確立し、多種多様な挑戦的なデータセットにまたがるアプローチの堅牢性を示す。
論文参考訳（メタデータ） (2025-05-07T07:06:04Z)
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文参考訳（メタデータ） (2024-08-30T17:26:05Z)
Collaborative Vision-Text Representation Optimizing for Open-Vocabulary Segmentation [82.95830628372845]
本稿では,Open-Vocabulary encoder(OVS)分野における協調視覚テキスト最適化機構を提案する。我々の知る限り、私たちはOVSフィールド内で協調的な視覚テキスト最適化メカニズムを最初に確立しました。オープン語彙のセマンティックセグメンテーションでは、この手法は、+0.5, +2.3, +3.4, +0.4, +1.1 mIoU の従来の最先端アプローチよりも優れている。
論文参考訳（メタデータ） (2024-08-01T17:48:08Z)
DLoRA-TrOCR: Mixed Text Mode Optical Character Recognition Based On Transformer [12.966765239586994]
マルチフォント、混合シーン、複雑なレイアウトは、従来のOCRモデルの認識精度に深刻な影響を及ぼす。本稿では,事前学習したOCR変換器,すなわちDLoRA-TrOCRに基づくパラメータ効率の良い混合テキスト認識手法を提案する。
論文参考訳（メタデータ） (2024-04-19T09:28:16Z)
LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。 125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文参考訳（メタデータ） (2024-03-04T15:34:12Z)
Enhancing OCR Performance through Post-OCR Models: Adopting Glyph Embedding for Improved Correction [0.0]
この手法の斬新さは、CharBERTと独自の埋め込み技術を用いてOCR出力を埋め込み、文字の視覚的特徴を捉えることである。以上の結果から,OCR後補正はOCRモデルの欠陥に効果的に対処し,グリフ埋め込みにより優れた結果が得られることが示唆された。
論文参考訳（メタデータ） (2023-08-29T12:41:50Z)
FigCaps-HF: A Figure-to-Caption Generative Framework and Benchmark with Human Feedback [69.4639239117551]
FigCaps-HFは、新しいフィギュアキャプション生成フレームワークである。本フレームワークは,1) 図形選択ペアの品質を評価するための自動手法,2) 人物フィードバックを用いた新しい強化学習(RLHF) により,読取者の好みに応じて生成図形選択モデルを最適化する。
論文参考訳（メタデータ） (2023-07-20T13:40:22Z)
RBSR: Efficient and Flexible Recurrent Network for Burst Super-Resolution [57.98314517861539]
バースト超解像(BurstSR)は、高解像度(HR)画像を低解像度(LR)画像と雑音画像から再構成することを目的としている。本稿では,効率よくフレキシブルなリカレントネットワークでフレーム単位のキューを融合させることを提案する。
論文参考訳（メタデータ） (2023-06-30T12:14:13Z)
Extending TrOCR for Text Localization-Free OCR of Full-Page Scanned Receipt Images [0.07673339435080445]
本稿では,レセプション画像中のすべての文字を順序付きシーケンス・ツー・エンドに変換するために,ローカライズフリーな文書レベルOCRモデルを提案する。具体的には、訓練済みのインスタンスレベルモデルTrOCRをランダムにトリミングした画像チャンクで微調整する。実験では64.4F1スコアと22.8%の文字誤り率を達成した。
論文参考訳（メタデータ） (2022-12-11T15:45:26Z)
Dynamic Low-Resolution Distillation for Cost-Efficient End-to-End Text Spotting [49.33891486324731]
コスト効率の高い動的低分解能蒸留(DLD)テキストスポッティングフレームワークを提案する。それは、小さなが認識可能な解像度で画像を推測し、精度と効率のバランスを改善することを目的としている。提案手法はエンド・ツー・エンドを最適化し,既存のテキストスポッティング・フレームワークに実装することで,実践性を向上させる。
論文参考訳（メタデータ） (2022-07-14T06:49:59Z)
TNCR: Table Net Detection and Classification Dataset [62.997667081978825]
TNCRデータセットは、スキャンされた文書画像のテーブル検出と5つのクラスに分類される。我々は、テーブル検出のための最先端のディープラーニングベースの手法を実装し、いくつかの強力なベースラインを構築した。我々は、テーブルの検出、分類、構造認識に対するより深い学習アプローチを促進するために、TNCRをオープンソースにしました。
論文参考訳（メタデータ） (2021-06-19T10:48:58Z)
Light Field Reconstruction Using Convolutional Network on EPI and Extended Applications [78.63280020581662]
スパースビューからの光場再構成のための新しい畳み込みニューラルネットワーク(CNN)ベースのフレームワークを開発した。最先端のアルゴリズムと比較して,提案フレームワークの高性能と堅牢性を実証する。
論文参考訳（メタデータ） (2021-03-24T08:16:32Z)
On-Device Text Image Super Resolution [0.0]
我々は、よりシャープな文字エッジを再構築し、OCRの信頼性を高める新しいディープニューラルネットワークを提案する。提案アーキテクチャは, バイコビックアップサンプリングによるPSNRの大幅な改善を実現するだけでなく, 平均推定時間1枚当たり11.7msで動作する。 ICDAR 2015 TextSRデータセットでは、OCRの精度が75.89%に達しています。
論文参考訳（メタデータ） (2020-11-20T07:49:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。