論文の概要: Automated Transcription for Pre-Modern Japanese Kuzushiji Documents by
Random Lines Erasure and Curriculum Learning
- arxiv url: http://arxiv.org/abs/2005.02669v1
- Date: Wed, 6 May 2020 09:17:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 05:52:21.955640
- Title: Automated Transcription for Pre-Modern Japanese Kuzushiji Documents by
Random Lines Erasure and Curriculum Learning
- Title(参考訳): ランダムラインの消去とカリキュラム学習による近世国師寺文書の自動転写
- Authors: Anh Duc Le
- Abstract要約: 従来の手法のほとんどは、認識プロセスを文字分割と認識に分割していた。
本稿では,従来の人間に触発された認識システムを複数行からクズシジ文書の全ページに拡張する。
トレーニングデータの欠如に対して,テキスト行をランダムに消去し,文書を歪ませるランダムテキスト行消去手法を提案する。
- 参考スコア(独自算出の注目度): 6.700873164609009
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing the full-page of Japanese historical documents is a challenging
problem due to the complex layout/background and difficulty of writing styles,
such as cursive and connected characters. Most of the previous methods divided
the recognition process into character segmentation and recognition. However,
those methods provide only character bounding boxes and classes without text
transcription. In this paper, we enlarge our previous humaninspired recognition
system from multiple lines to the full-page of Kuzushiji documents. The
human-inspired recognition system simulates human eye movement during the
reading process. For the lack of training data, we propose a random text line
erasure approach that randomly erases text lines and distorts documents. For
the convergence problem of the recognition system for fullpage documents, we
employ curriculum learning that trains the recognition system step by step from
the easy level (several text lines of documents) to the difficult level
(full-page documents). We tested the step training approach and random text
line erasure approach on the dataset of the Kuzushiji recognition competition
on Kaggle. The results of the experiments demonstrate the effectiveness of our
proposed approaches. These results are competitive with other participants of
the Kuzushiji recognition competition.
- Abstract(参考訳): 日本の歴史文書のフルページ認識は,複雑なレイアウトや背景,カーソルやコネクテッド・キャラクタといったスタイルが難しいため,難しい課題となっている。
従来の手法のほとんどは、認識過程を文字分割と認識に分割した。
しかし、これらの方法は文字の書き起こしなしに文字境界ボックスやクラスのみを提供する。
本稿では,従来の人為的な認識システムを複数行からクズシジ文書の全ページに拡張する。
人為的な認識システムは、読み上げ過程における人間の目の動きをシミュレートする。
トレーニングデータの欠如に対して,テキスト行をランダムに消去し,文書を歪ませるランダムテキスト行消去手法を提案する。
本報告では,全ページ文書の認識システムの収束問題に対して,簡単なレベル(複数行の文書)から難しいレベル(全ページ文書)まで,認識システムを段階的に訓練するカリキュラムを採用。
ステップトレーニングアプローチとランダムテキストライン消去アプローチを,kaggleにおけるクズシジ認識コンペティションのデータセット上でテストした。
実験の結果,提案手法の有効性が示された。
これらの結果は、クズシジ認識競技の他の参加者と競合する。
関連論文リスト
- Text-Only Training for Visual Storytelling [107.19873669536523]
視覚条件付きストーリー生成問題として視覚的ストーリーテリングを定式化する。
本稿では,モダリティ間のアライメントとストーリー生成の学習を分離するテキストのみのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-17T09:32:17Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - CSSL-MHTR: Continual Self-Supervised Learning for Scalable Multi-script Handwritten Text Recognition [16.987008461171065]
我々は,手書き文字認識における破滅的な忘れの問題を軽減するために,連続的な自己指導型学習の可能性を探究する。
提案手法は,各タスクにアダプタと呼ばれる中間層を追加し,現在のタスクを学習しながら,前モデルからの知識を効率的に抽出する。
私たちは英語、イタリア語、ロシア語のスクリプトで最先端のパフォーマンスを達成しましたが、タスクごとにいくつかのパラメータしか追加していません。
論文 参考訳(メタデータ) (2023-03-16T14:27:45Z) - Towards End-to-end Handwritten Document Recognition [0.0]
手書き文字認識は、その多くの応用のために過去数十年にわたって広く研究されてきた。
本稿では,文書全体の手書きテキスト認識をエンドツーエンドで行うことで,これらの課題に対処することを提案する。
RIMES 2011, IAM, READ 2016 データセットの段落レベルでの最先端結果に到達し, これらのデータセットのラインレベル状態よりも優れていた。
論文 参考訳(メタデータ) (2022-09-30T10:31:22Z) - Reading and Writing: Discriminative and Generative Modeling for
Self-Supervised Text Recognition [101.60244147302197]
テキスト画像の識別と生成を学習するために,コントラスト学習とマスク付き画像モデリングを導入する。
本手法は,不規則なシーンテキスト認識データセットにおいて,従来の自己教師付きテキスト認識手法を10.2%~20.2%向上させる。
提案したテキスト認識器は,11のベンチマークで平均5.3%の精度で従来のテキスト認識手法を上回り,モデルサイズが類似している。
論文 参考訳(メタデータ) (2022-07-01T03:50:26Z) - KOHTD: Kazakh Offline Handwritten Text Dataset [0.0]
広範囲にわたるカザフスタンのオフライン手書きテキストデータセット(KOHTD)を提案する。
KOHTDには3000枚の手書き試験用紙と140335枚以上の分割画像があり、約922010のシンボルがある。
我々は,CTC法や注意法など,単語・行認識に人気の高いテキスト認識手法を多用した。
論文 参考訳(メタデータ) (2021-09-22T16:19:38Z) - Robust Handwriting Recognition with Limited and Noisy Data [7.617456558732551]
私たちはメンテナンスログから手書き文字を学習することに重点を置いています。
この問題を単語分割と単語認識の2段階に分割し,データ拡張技術を用いて両段階を訓練する。
本システムは誤り率を低くし,ノイズや難解な文書を扱うのに適している。
論文 参考訳(メタデータ) (2020-08-18T20:33:23Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z) - Separating Content from Style Using Adversarial Learning for Recognizing
Text in the Wild [103.51604161298512]
画像中の複数の文字の生成と認識のための逆学習フレームワークを提案する。
我々のフレームワークは、新しい最先端の認識精度を達成するために、最近の認識手法に統合することができる。
論文 参考訳(メタデータ) (2020-01-13T12:41:42Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。