Fugu-MT 論文翻訳(概要): Enhancing OCR Performance through Post-OCR Models: Adopting Glyph Embedding for Improved Correction

論文の概要: Enhancing OCR Performance through Post-OCR Models: Adopting Glyph Embedding for Improved Correction

arxiv url: http://arxiv.org/abs/2308.15262v1
Date: Tue, 29 Aug 2023 12:41:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-30 14:19:16.884237
Title: Enhancing OCR Performance through Post-OCR Models: Adopting Glyph Embedding for Improved Correction
Title（参考訳）: OCR後モデルによるOCR性能向上:補正改善のためのグリフ埋め込みの採用
Authors: Yung-Hsin Chen and Yuli Zhou
Abstract要約: この手法の斬新さは、CharBERTと独自の埋め込み技術を用いてOCR出力を埋め込み、文字の視覚的特徴を捉えることである。以上の結果から,OCR後補正はOCRモデルの欠陥に効果的に対処し,グリフ埋め込みにより優れた結果が得られることが示唆された。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The study investigates the potential of post-OCR models to overcome limitations in OCR models and explores the impact of incorporating glyph embedding on post-OCR correction performance. In this study, we have developed our own post-OCR correction model. The novelty of our approach lies in embedding the OCR output using CharBERT and our unique embedding technique, capturing the visual characteristics of characters. Our findings show that post-OCR correction effectively addresses deficiencies in inferior OCR models, and glyph embedding enables the model to achieve superior results, including the ability to correct individual words.
Abstract（参考訳）: 本研究は,ocrモデルの限界を克服するポストocrモデルの可能性を調査し,glyph埋め込みがポストocr補正性能に与える影響を検討する。本研究では,OCR後修正モデルを開発した。この手法の斬新さは、CharBERTと独自の埋め込み技術を用いてOCR出力を埋め込み、文字の視覚的特徴を捉えることである。以上の結果から,OCR後の修正はOCRモデルの欠陥に効果的に対処し,グリフ埋め込みにより個々の単語を修正できるなど,優れた結果が得られることがわかった。

関連論文リスト

Training Language Model to Critique for Better Refinement [58.73039433159486]
textbfRefinement-oriented textbfCritique textbfOptimization (RCO)を導入する。 RCOは、批評家モデルによって生成された批評がアクターモデルに応答を洗練させるためのフィードバックループを使用する。より良い改善につながる批判に焦点を当てることで、RCOは直接的な批判的嗜好評価の必要性を排除している。
論文参考訳（メタデータ） (2025-06-27T12:10:57Z)
Reasoning-OCR: Can Large Multimodal Models Solve Complex Logical Reasoning Problems from OCR Cues? [73.35232225256968]
Reasoning-OCRは、リッチビジュアルテキストから抽出できるキューに基づいて複雑な推論問題を解決するためにLMMに挑戦する。我々の評価は、異なる理由付けの課題において、プロプライエタリでオープンソースのLMMにいくつかの洞察を与えます。
論文参考訳（メタデータ） (2025-05-19T06:45:18Z)
Practical Fine-Tuning of Autoregressive Models on Limited Handwritten Texts [0.0]
微調整は16行で確実に開始でき、CERが10%向上し、256行で最大40%向上することを示した。また,OCRモデルを用いて情報回線の信頼性に基づく選択を行うことで,アノテーションのコストを半減できることを示す。
論文参考訳（メタデータ） (2025-03-25T11:01:05Z)
Enabling Scalable Oversight via Self-Evolving Critic [59.861013614500024]
SCRIT(Self-evolving CRITic)は、批評能力の真の自己進化を可能にするフレームワークである。コントラストベースの自己批判によって生成される合成データのトレーニングによって自己改善する。最大で10.3%の改善が達成されている。
論文参考訳（メタデータ） (2025-01-10T05:51:52Z)
Confidence-Aware Document OCR Error Detection [1.003485566379789]
我々は,OCRシステム間の信頼度スコアと誤差率の相関関係を解析した。我々は、OCR信頼スコアをトークン埋め込みに組み込むBERTベースのモデルConfBERTを開発した。
論文参考訳（メタデータ） (2024-09-06T08:35:28Z)
CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的コンテキストを提供することの価値を判断することである。
論文参考訳（メタデータ） (2024-08-30T17:26:05Z)
Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文参考訳（メタデータ） (2024-06-11T09:37:52Z)
Data Generation for Post-OCR correction of Cyrillic handwriting [41.94295877935867]
本稿では,B'ezier曲線に基づく合成手書き生成エンジンの開発と応用に焦点を当てる。このようなエンジンは、任意の量で非常にリアルな手書きテキストを生成し、それを利用して実質的なデータセットを作成する。本データセットに手書きテキスト認識(HTR)モデルを適用し,OCRエラーを識別し,POCモデルトレーニングの基礎となる。
論文参考訳（メタデータ） (2023-11-27T15:01:26Z)
Cross-modal Active Complementary Learning with Self-refining Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。 ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。 SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文参考訳（メタデータ） (2023-10-26T15:15:11Z)
User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文参考訳（メタデータ） (2023-02-26T21:41:15Z)
iOCR: Informed Optical Character Recognition for Election Ballot Tallies [13.343515845758398]
iOCR は従来の OCR による投票集計の誤りを修正するスペル補正アルゴリズムを用いて開発された。その結果,iOCR法は従来のOCR法よりも優れていた。
論文参考訳（メタデータ） (2022-08-01T13:50:13Z)
An Evaluation of OCR on Egocentric Data [30.637021477342035]
本稿では,エゴセントリックデータに対する最先端OCR手法の評価を行う。既存のOCR手法は、処理対象に対して頻繁に観察される回転テキストと競合することを示す。我々は、正規化編集距離誤差を半減する事前学習されたOCRモデルに適用可能な、シンプルな回転・合流手順を提案する。
論文参考訳（メタデータ） (2022-06-11T10:37:20Z)
Neural Model Reprogramming with Similarity Based Mapping for Low-Resource Spoken Command Recognition [71.96870151495536]
低リソース音声コマンド認識(SCR)のための新しいAR手法を提案する。 ARプロシージャは、(対象領域から)音響信号を修正して、事前訓練されたSCRモデルを再利用することを目的としている。提案したAR-SCRシステムについて,アラビア語,リトアニア語,マンダリン語を含む3つの低リソースSCRデータセットを用いて評価した。
論文参考訳（メタデータ） (2021-10-08T05:07:35Z)
A Self-Refinement Strategy for Noise Reduction in Grammatical Error Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文参考訳（メタデータ） (2020-10-07T04:45:09Z)
Characteristic Regularisation for Super-Resolving Face Images [81.84939112201377]
既存の顔画像超解像法(SR)は、主に人工的にダウンサンプリングされた低解像度(LR)画像の改善に焦点を当てている。従来の非教師なしドメイン適応(UDA)手法は、未ペアの真のLRとHRデータを用いてモデルをトレーニングすることでこの問題に対処する。これにより、視覚的特徴を構成することと、画像の解像度を高めることの2つのタスクで、モデルをオーバーストレッチする。従来のSRモデルとUDAモデルの利点を結合する手法を定式化する。
論文参考訳（メタデータ） (2019-12-30T16:27:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。