論文の概要: Character decomposition to resolve class imbalance problem in Hangul OCR
- arxiv url: http://arxiv.org/abs/2208.06079v1
- Date: Fri, 12 Aug 2022 01:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:24:38.481558
- Title: Character decomposition to resolve class imbalance problem in Hangul OCR
- Title(参考訳): ハングルOCRにおけるクラス不均衡問題解消のための文字分解
- Authors: Geonuk Kim, Jaemin Son, Kanghyu Lee, Jaesik Min
- Abstract要約: 本稿では,韓国文字HangulのOCR(Optical Character Recognition)に対する新しいアプローチを提案する。
フォノグラムとして、ハングルは111,172の異なる文字を52のグラフエムで表すことができ、各文字をグラフエムの組み合わせで記述することができる。
ベンチマークテストの結果,Hangul OCRの主な問題であるクラス不均衡とターゲットクラス選択の2つが解決された。
- 参考スコア(独自算出の注目度): 2.01615854844433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach to OCR(Optical Character Recognition) of Korean
character, Hangul. As a phonogram, Hangul can represent 11,172 different
characters with only 52 graphemes, by describing each character with a
combination of the graphemes. As the total number of the characters could
overwhelm the capacity of a neural network, the existing OCR encoding methods
pre-define a smaller set of characters that are frequently used. This design
choice naturally compromises the performance on long-tailed characters in the
distribution. In this work, we demonstrate that grapheme encoding is not only
efficient but also performant for Hangul OCR. Benchmark tests show that our
approach resolves two main problems of Hangul OCR: class imbalance and target
class selection.
- Abstract(参考訳): 本稿では,韓国文字HangulのOCR(Optical Character Recognition)に対する新しいアプローチを提案する。
フォノグラムとして、ハングルは111,172の異なる文字を52のグラフエムで表すことができ、各文字をグラフエムの組み合わせで記述することができる。
文字の総数がニューラルネットワークの容量を超過できるため、既存のOCR符号化手法は頻繁に使用される小さな文字セットを事前に定義する。
この設計選択は、分布中の長い尾文字のパフォーマンスを自然に損なう。
本稿では,graphemeエンコーディングが効率的であるだけでなく,hangul ocrの高性能であることを示す。
ベンチマークテストの結果,Hangul OCRの主な問題であるクラス不均衡とターゲットクラス選択の2つが解決された。
関連論文リスト
- EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Quantifying Character Similarity with Vision Transformers [1.5293427903448025]
本研究は,OCR文書の文字置換コストを測定する手法を開発した。
視覚変換器(ViT)の大規模な自己教師型トレーニングと拡張デジタルフォントを採用している。
編集距離マッチングアルゴリズムにおいて、文字表現間の余剰距離を置換コストとして用いることにより、レコードリンクが大幅に改善される。
論文 参考訳(メタデータ) (2023-05-24T03:25:33Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - A Sketch Is Worth a Thousand Words: Image Retrieval with Text and Sketch [63.12810494378133]
テキスト記述とスケッチを入力として,画像検索のためのエンドツーエンドのトレーニング可能なモデルを提案する。
テキストに加え、入力スケッチ(下図)を使用することで、従来のテキストベースの画像検索と比較して、検索リコールが大幅に増加することを実証的に実証した。
論文 参考訳(メタデータ) (2022-08-05T18:43:37Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Post-OCR Document Correction with large Ensembles of Character Sequence
Models [0.3359875577705537]
光学文字認識(OCR)システムですでに処理されている文書を補正する新しい手法を提案する。
本論文の主な貢献は,文字列を正確に処理する戦略の集合である。
我々は,ICDAR 2019コンペティションの9言語を対象に,OCR後のテキスト修正を行い,その中5言語で新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T19:05:02Z) - Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.808021793372504]
本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。
我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。
提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
論文 参考訳(メタデータ) (2021-06-22T08:49:03Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z) - Hard Non-Monotonic Attention for Character-Level Transduction [65.17388794270694]
2つの弦間の多くの非単調なアライメントを余剰化するための厳密な指数時間アルゴリズムを導入する。
ソフト・モノトニック・アテンションとハード・ノン・モノトニック・アテンションを実験的に比較したところ、正確なアルゴリズムは近似よりも性能を著しく改善し、ソフト・アテンションよりも優れていた。
論文 参考訳(メタデータ) (2018-08-29T20:00:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。