論文の概要: Enhancement of text recognition for hanja handwritten documents of Ancient Korea
- arxiv url: http://arxiv.org/abs/2412.10647v1
- Date: Sat, 14 Dec 2024 02:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:57:52.860782
- Title: Enhancement of text recognition for hanja handwritten documents of Ancient Korea
- Title(参考訳): 古代朝鮮の漢書文書における文字認識の高度化
- Authors: Joonmo Ahna, Taehong Jang, Quan Fengnyu, Hyungil Lee, Jaehyuk Lee, Sojung Lucia Kim,
- Abstract要約: 我々は,古典的手書き文書に対して,高性能な光学文字認識モデルを実装した。
判者手書き文書の認識は有意義で特別な課題である。
- 参考スコア(独自算出の注目度): 0.769672852567215
- License:
- Abstract: We implemented a high-performance optical character recognition model for classical handwritten documents using data augmentation with highly variable cropping within the document region. Optical character recognition in handwritten documents, especially classical documents, has been a challenging topic in many countries and research organizations due to its difficulty. Although many researchers have conducted research on this topic, the quality of classical texts over time and the unique stylistic characteristics of various authors have made it difficult, and it is clear that the recognition of hanja handwritten documents is a meaningful and special challenge, especially since hanja, which has been developed by reflecting the vocabulary, semantic, and syntactic features of the Joseon Dynasty, is different from classical Chinese characters. To study this challenge, we used 1100 cursive documents, which are small in size, and augmented 100 documents per document by cropping a randomly sized region within each document for training, and trained them using a two-stage object detection model, High resolution neural network (HRNet), and applied the resulting model to achieve a high inference recognition rate of 90% for cursive documents. Through this study, we also confirmed that the performance of OCR is affected by the simplified characters, variants, variant characters, common characters, and alternators of Chinese characters that are difficult to see in other studies, and we propose that the results of this study can be applied to optical character recognition of modern documents in multiple languages as well as other typefaces in classical documents.
- Abstract(参考訳): 我々は,文書領域内で高度に可変なトリミングを伴うデータ拡張を用いた,古典的手書き文書に対する高性能な光学文字認識モデルを実装した。
手書き文書、特に古典文書における光学的文字認識は、その難しさから、多くの国や研究機関において難題となっている。
この話題について多くの研究者が研究を行ってきたが、古典文の質や様々な著者の独特な文体性は困難であり、特に漢文の語彙・意味・統語的特徴を反映して発達した漢文が古典漢字とは異なることから、漢文手書き文書の認識が有意義で特別な課題であることは明らかである。
この課題を考察するために,我々は,小サイズの1100個のカーシブ文書を用いて,各文書内のランダムな大きさの領域を抽出し,それらを2段階の物体検出モデルである高分解能ニューラルネットワーク(HRNet)を用いて訓練し,その結果のモデルを適用して,カーシブ文書の90%の高い推論認識率を実現した。
本研究により、OCRの性能は、他の研究では見づらい漢字の簡易文字、変種文字、変種文字、変種文字、変種文字などの影響を受けていることが確認され、本研究の結果は、複数の言語における現代文書の光学的文字認識や、古典文書の他の書体にも応用できる可能性が示唆された。
関連論文リスト
- Handwriting Recognition in Historical Documents with Multimodal LLM [0.0]
マルチモーダル言語モデルは、ショットプロンプトが少なく、OCRおよびコンピュータビジョンタスクの実行に有効であることを示した。
本稿では,ジェミニが作成した手書き文書の書き起こしの精度を,アートトランスフォーマーに基づく手法の現況に対して評価する。
論文 参考訳(メタデータ) (2024-10-31T15:32:14Z) - MetaScript: Few-Shot Handwritten Chinese Content Generation via
Generative Adversarial Networks [15.037121719502606]
漢字のデジタル表現における個人的手書きスタイルの存在感の低下に対処する新しいコンテンツ生成システムであるMetaScriptを提案する。
本手法は,個人固有の手書きスタイルを保ち,デジタルタイピングの効率を維持できる漢字を生成するために,数ショット学習の力を利用する。
論文 参考訳(メタデータ) (2023-12-25T17:31:19Z) - PHD: Pixel-Based Language Modeling of Historical Documents [55.75201940642297]
実史文書に類似した合成スキャンを生成する新しい手法を提案する。
我々は,1700-1900年代における合成スキャンと実際の歴史新聞を組み合わせて,我々のモデルであるPHDを事前訓練した。
我々は、この領域におけるその有用性を強調しながら、我々のモデルを歴史的QAタスクに適用することに成功しました。
論文 参考訳(メタデータ) (2023-10-22T08:45:48Z) - OCRBench: On the Hidden Mystery of OCR in Large Multimodal Models [122.27878464009181]
テキスト関連視覚タスクにおいて, GPT4V や Gemini などの大規模マルチモーダルモデルの包括的評価を行った。
OCRBenchには29のデータセットがあり、最も包括的なOCR評価ベンチマークが利用できる。
論文 参考訳(メタデータ) (2023-05-13T11:28:37Z) - Boosting Modern and Historical Handwritten Text Recognition with
Deformable Convolutions [52.250269529057014]
自由進化ページにおける手書き文字認識(HTR)は難しい画像理解課題である。
本稿では,手入力に応じて変形し,テキストの幾何学的変化に適応できる変形可能な畳み込みを導入することを提案する。
論文 参考訳(メタデータ) (2022-08-17T06:55:54Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Digital Editions as Distant Supervision for Layout Analysis of Printed
Books [76.29918490722902]
本稿では,この意味的マークアップを,レイアウト解析モデルのトレーニングと評価のための遠隔監視として利用する手法について述べる。
DTA(Deutsches Textarchiv)の50万ページにわたるモデルアーキテクチャの実験では、これらの領域レベルの評価手法と画素レベルのメトリクスとワードレベルのメトリクスとの高い相関性を見出した。
自己学習による精度向上の可能性と、DTAで訓練されたモデルが他の歴史書に一般化できる可能性について論じる。
論文 参考訳(メタデータ) (2021-12-23T16:51:53Z) - Predicting the Ordering of Characters in Japanese Historical Documents [6.82324732276004]
1900年(明治33年)の日本書記制度の変遷により、歴史文書は一般には入手できないものとなった。
キャラクタの逐次順序を予測するタスクに対するいくつかのアプローチについて検討する。
私たちのベストパフォーマンスシステムは98.65%の精度で、データセットの書籍の49%で完璧に正確です。
論文 参考訳(メタデータ) (2021-06-12T14:39:20Z) - Handwriting Classification for the Analysis of Art-Historical Documents [6.918282834668529]
We focus on the analysis of handwriting in scanned document from the art-historic Archive of the WPI。
視覚構造に基づいて抽出されたテキストの断片をラベル付けする手書き分類モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T13:06:46Z) - Spectral Graph-based Features for Recognition of Handwritten Characters:
A Case Study on Handwritten Devanagari Numerals [0.0]
本稿では,手書き文字を表現するために,頑健なグラフ表現とスペクトルグラフ埋め込みの概念を利用する手法を提案する。
提案手法の有効性の検証のために,インド統計研究所コルカタデータセットの標準手書き数値視覚パターン認識について広範な実験を行った。
論文 参考訳(メタデータ) (2020-07-07T08:40:08Z) - Explaining Relationships Between Scientific Documents [55.23390424044378]
本稿では,2つの学術文書間の関係を自然言語テキストを用いて記述する課題に対処する。
本稿では154K文書から622Kサンプルのデータセットを作成する。
論文 参考訳(メタデータ) (2020-02-02T03:54:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。