論文の概要: Detection of Furigana Text in Images
- arxiv url: http://arxiv.org/abs/2207.03960v1
- Date: Fri, 8 Jul 2022 15:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 14:05:26.509717
- Title: Detection of Furigana Text in Images
- Title(参考訳): 画像中のフリガナテキストの検出
- Authors: Nikolaj Kj{\o}ller Bjerregaard, Veronika Cheplygina, Stefan Heinrich
- Abstract要約: 振仮名(ふりがな)は、日本語の音符。
これらの検出は光学文字認識(OCR)の性能向上に役立つ。
本プロジェクトは、日本の書物や漫画における振替の検出に焦点を当てている。
- 参考スコア(独自算出の注目度): 1.77898701462905
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Furigana are pronunciation notes used in Japanese writing. Being able to
detect these can help improve optical character recognition (OCR) performance
or make more accurate digital copies of Japanese written media by correctly
displaying furigana. This project focuses on detecting furigana in Japanese
books and comics. While there has been research into the detection of Japanese
text in general, there are currently no proposed methods for detecting
furigana.
We construct a new dataset containing Japanese written media and annotations
of furigana. We propose an evaluation metric for such data which is similar to
the evaluation protocols used in object detection except that it allows groups
of objects to be labeled by one annotation. We propose a method for detection
of furigana that is based on mathematical morphology and connected component
analysis. We evaluate the detections of the dataset and compare different
methods for text extraction. We also evaluate different types of images such as
books and comics individually and discuss the challenges of each type of image.
The proposed method reaches an F1-score of 76\% on the dataset. The method
performs well on regular books, but less so on comics, and books of irregular
format. Finally, we show that the proposed method can improve the performance
of OCR by 5\% on the manga109 dataset.
Source code is available via
\texttt{\url{https://github.com/nikolajkb/FuriganaDetection}}
- Abstract(参考訳): 振仮名(ふりがな)は、日本語の音符。
これらを検出することで、光学式文字認識(ocr)の性能向上や、フルリガナを正しく表示することで、より正確な日本語メディアのデジタルコピーを作成することができる。
本プロジェクトは、日本の書物や漫画における振替の検出に焦点を当てている。
一般に日本語テキストの検出は研究されているが、現在では振仮名の検出方法が提案されていない。
日本語のメディアと古仮名の注釈を含む新しいデータセットを構築した。
本稿では,オブジェクト検出に使用される評価プロトコルに類似したデータに対する評価基準を提案する。
本稿では, 数学的形態学および連結成分分析に基づくフラガナの検出手法を提案する。
データセットの検出を評価し,テキスト抽出のための異なる手法を比較した。
また、書籍や漫画などの異なる種類の画像についても個別に評価し、各タイプの画像の課題について議論する。
提案手法はデータセット上でF1スコアの76\%に達する。
この方法は通常の本ではうまく機能するが、漫画や不規則な形式の本ではうまく機能しない。
最後に,提案手法により,manga109データセット上でocrの性能を5\%向上できることを示す。
ソースコードは \texttt{\url{https://github.com/nikolajkb/FuriganaDetection}} から入手できる。
関連論文リスト
- KhmerST: A Low-Resource Khmer Scene Text Detection and Recognition Benchmark [1.5409800688911346]
我々は,1,544人の専門家による注釈付き画像を含む,最初のKhmerシーンテキストデータセットを紹介した。
この多様なデータセットには、平らなテキスト、起立したテキスト、照度の低いテキスト、遠くのポリゴン、部分的に不明瞭なテキストが含まれる。
論文 参考訳(メタデータ) (2024-10-23T21:04:24Z) - The First Swahili Language Scene Text Detection and Recognition Dataset [55.83178123785643]
低リソース言語、特にスワヒリ語には大きなギャップがある。
スワヒリ語は東アフリカ諸国で広く話されているが、依然としてシーンテキスト認識において未発見言語である。
本研究では,スワヒリシーンのテキスト画像の包括的データセットを提案し,異なるシーンのテキスト検出および認識モデルに基づくデータセットの評価を行う。
論文 参考訳(メタデータ) (2024-05-19T03:55:02Z) - Efficiently Leveraging Linguistic Priors for Scene Text Spotting [63.22351047545888]
本稿では,大規模テキストコーパスから言語知識を活用する手法を提案する。
シーンテキストデータセットとよく一致したテキスト分布を生成し、ドメイン内の微調整の必要性を取り除く。
実験結果から,本手法は認識精度を向上するだけでなく,単語のより正確な局所化を可能にすることが示された。
論文 参考訳(メタデータ) (2024-02-27T01:57:09Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - Unconstrained Text Detection in Manga [3.04585143845864]
本研究の目的は、高度に洗練されたテキストスタイルの漫画ジャンルにおいて、ピクセルレベルで文字を識別することである。
テキスト検出の文献のほとんどは、ピクセルレベルの評価には適さないバウンディングボックスメトリクスを使用している。
これらの資源を用いて、多くのメトリクスにおいて、マンガのテキスト検出における現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-10-07T13:28:13Z) - Unconstrained Text Detection in Manga: a New Dataset and Baseline [3.04585143845864]
本研究は,日本漫画という高度に洗練された文体で漫画ジャンルのテキストをバイナライズすることを目的としている。
ピクセルレベルでのテキストアノテーションによるマンガデータセットの欠如を克服するために、私たちは独自のものを作成します。
これらの資源を用いて、多くのメトリクスにおいて、マンガにおけるテキストバイナライゼーションの現在の手法よりも優れた、ディープ・ネットワーク・モデルの設計と評価を行った。
論文 参考訳(メタデータ) (2020-09-09T00:16:51Z) - AE TextSpotter: Learning Visual and Linguistic Representation for
Ambiguous Text Spotting [98.08853679310603]
本研究はAmbiguity Elimination Text Spotter(AE TextSpotter)という新しいテキストスポッターを提案する。
AE TextSpotterは、視覚的特徴と言語的特徴の両方を学び、テキスト検出の曖昧さを著しく低減する。
我々の知る限り、言語モデルを用いてテキスト検出を改善するのはこれが初めてである。
論文 参考訳(メタデータ) (2020-08-03T08:40:01Z) - Text Recognition -- Real World Data and Where to Find Them [36.10220484561196]
本稿では,弱い注釈付き画像を利用してテキスト抽出パイプラインを改善する手法を提案する。
このアプローチでは、任意のエンドツーエンドのテキスト認識システムを使用して、テキスト領域の提案と、おそらく誤った書き起こしを取得する。
シーンテキストのほとんどエラーのないローカライズされたインスタンスを生成し、これが"擬似基底真理"(PGT)として扱う。
論文 参考訳(メタデータ) (2020-07-06T22:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。