論文の概要: Character decomposition to resolve class imbalance problem in Hangul OCR
- arxiv url: http://arxiv.org/abs/2208.06079v1
- Date: Fri, 12 Aug 2022 01:35:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:24:38.481558
- Title: Character decomposition to resolve class imbalance problem in Hangul OCR
- Title(参考訳): ハングルOCRにおけるクラス不均衡問題解消のための文字分解
- Authors: Geonuk Kim, Jaemin Son, Kanghyu Lee, Jaesik Min
- Abstract要約: 本稿では,韓国文字HangulのOCR(Optical Character Recognition)に対する新しいアプローチを提案する。
フォノグラムとして、ハングルは111,172の異なる文字を52のグラフエムで表すことができ、各文字をグラフエムの組み合わせで記述することができる。
ベンチマークテストの結果,Hangul OCRの主な問題であるクラス不均衡とターゲットクラス選択の2つが解決された。
- 参考スコア(独自算出の注目度): 2.01615854844433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel approach to OCR(Optical Character Recognition) of Korean
character, Hangul. As a phonogram, Hangul can represent 11,172 different
characters with only 52 graphemes, by describing each character with a
combination of the graphemes. As the total number of the characters could
overwhelm the capacity of a neural network, the existing OCR encoding methods
pre-define a smaller set of characters that are frequently used. This design
choice naturally compromises the performance on long-tailed characters in the
distribution. In this work, we demonstrate that grapheme encoding is not only
efficient but also performant for Hangul OCR. Benchmark tests show that our
approach resolves two main problems of Hangul OCR: class imbalance and target
class selection.
- Abstract(参考訳): 本稿では,韓国文字HangulのOCR(Optical Character Recognition)に対する新しいアプローチを提案する。
フォノグラムとして、ハングルは111,172の異なる文字を52のグラフエムで表すことができ、各文字をグラフエムの組み合わせで記述することができる。
文字の総数がニューラルネットワークの容量を超過できるため、既存のOCR符号化手法は頻繁に使用される小さな文字セットを事前に定義する。
この設計選択は、分布中の長い尾文字のパフォーマンスを自然に損なう。
本稿では,graphemeエンコーディングが効率的であるだけでなく,hangul ocrの高性能であることを示す。
ベンチマークテストの結果,Hangul OCRの主な問題であるクラス不均衡とターゲットクラス選択の2つが解決された。
関連論文リスト
- Focus on the Whole Character: Discriminative Character Modeling for Scene Text Recognition [28.93482989766411]
文字の特徴を豊かにし,文字の識別性を向上する手法を提案する。
CACEは各ブロックに崩壊行列を導入し、各トークンの注意領域を明示的に案内する。
I2CLは、各文字カテゴリの長期記憶ユニットを学習することで、特徴の非ネイティブ性を改善する。
論文 参考訳(メタデータ) (2024-07-08T02:33:29Z) - C-LLM: Learn to Check Chinese Spelling Errors Character by Character [61.53865964535705]
本稿では,C-LLMを提案する。C-LLMは,文字による誤り文字のチェックを学習する中国語のスペルチェック手法である。
C-LLMは既存の方法よりも平均10%改善する。
論文 参考訳(メタデータ) (2024-06-24T11:16:31Z) - CHIRON: Rich Character Representations in Long-Form Narratives [98.273323001781]
文字のテキスト情報を整理・フィルタリングする新しい文字シートの表現であるCHIRONを提案する。
実験の結果,CHIRONは類似の要約に基づくベースラインよりも優れ,柔軟であることが判明した。
CHIRONから派生したメトリクスは、ストーリーのキャラクター中心性を自動的に推測するために使用することができ、これらのメトリクスは人間の判断と一致している。
論文 参考訳(メタデータ) (2024-06-14T17:23:57Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - Learning Generative Structure Prior for Blind Text Image
Super-resolution [153.05759524358467]
我々は、キャラクター構造にもっと焦点をあてた小説を提示する。
StyleGANの生成空間を制限するため、各文字の離散的な特徴をコードブックに格納する。
提案した構造は, 従来より強い文字特異的指導を行い, 指定された文字の忠実で正確なストロークを復元する。
論文 参考訳(メタデータ) (2023-03-26T13:54:28Z) - Post-OCR Document Correction with large Ensembles of Character Sequence
Models [0.3359875577705537]
光学文字認識(OCR)システムですでに処理されている文書を補正する新しい手法を提案する。
本論文の主な貢献は,文字列を正確に処理する戦略の集合である。
我々は,ICDAR 2019コンペティションの9言語を対象に,OCR後のテキスト修正を行い,その中5言語で新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2021-09-13T19:05:02Z) - Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition [37.808021793372504]
本稿では,各文字をストローク列に分解することで,ストロークに基づく手法を提案する。
我々は、予測されたストロークシーケンスを特定の文字に変換するためにマッチングベースの戦略を用いる。
提案手法は、文字をストロークに分解できる他の言語に容易に一般化できる。
論文 参考訳(メタデータ) (2021-06-22T08:49:03Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。