論文の概要: On-Device Language Identification of Text in Images using Diacritic
Characters
- arxiv url: http://arxiv.org/abs/2011.05108v1
- Date: Tue, 10 Nov 2020 14:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 07:39:29.522836
- Title: On-Device Language Identification of Text in Images using Diacritic
Characters
- Title(参考訳): 発音文字を用いた画像中のテキストのオンデバイス言語識別
- Authors: Shubham Vatsal, Nikhil Arora, Gopi Ramena, Sukumar Moharana, Dhruval
Jain, Naresh Purre, Rachit S Munjal
- Abstract要約: 発音文字は、与えられた言語をかなり高い精度で識別する上で、適切かつ重要な手がかりを提供する、一意の文字集合と見なすことができる。
我々は,任意の自動環境下での光学的文字認識(OCR)性能を向上させるために,発音文字の存在を利用して画像中のテキストの言語を特定することを目的とする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Diacritic characters can be considered as a unique set of characters
providing us with adequate and significant clue in identifying a given language
with considerably high accuracy. Diacritics, though associated with phonetics
often serve as a distinguishing feature for many languages especially the ones
with a Latin script. In this proposed work, we aim to identify language of text
in images using the presence of diacritic characters in order to improve
Optical Character Recognition (OCR) performance in any given automated
environment. We showcase our work across 13 Latin languages encompassing 85
diacritic characters. We use an architecture similar to Squeezedet for object
detection of diacritic characters followed by a shallow network to finally
identify the language. OCR systems when accompanied with identified language
parameter tends to produce better results than sole deployment of OCR systems.
The discussed work apart from guaranteeing an improvement in OCR results also
takes on-device (mobile phone) constraints into consideration in terms of model
size and inference time.
- Abstract(参考訳): 発音文字は、与えられた言語をかなり高い精度で識別する上で、適切かつ重要な手がかりを提供する、一意の文字集合と見なすことができる。
音声学に関連するダイアクリティカルな言語は、多くの言語、特にラテン文字で区別される特徴である。
本研究は,任意の自動環境下での光学的文字認識(OCR)性能を改善するために,発音文字の存在を利用して画像中のテキスト言語を特定することを目的とする。
85のダイアクリティカル文字を含む13のラテン言語にまたがる作品を紹介します。
ダイアクリティカル文字のオブジェクト検出にspeicedetに似たアーキテクチャを使用し,最後に浅いネットワークを使用して言語を識別する。
特定言語パラメータを伴う場合、OCRシステムは単独のOCRシステムよりも良い結果をもたらす傾向にある。
OCR結果の改善の保証とは別に、モデルサイズや推測時間の観点からデバイス上での制約(携帯電話)も考慮に入れている。
関連論文リスト
- Don't Touch My Diacritics [6.307256398189243]
我々は、多くの言語やスクリプトを起源とするテキストにおけるダイアクリティカルな文章の扱いに焦点をあてる。
本研究は,いくつかのケーススタディを通じて,ダイアクリティカル文字の非一貫性な符号化と,ダイアクリティカル文字を完全に除去する効果を実証する。
論文 参考訳(メタデータ) (2024-10-31T17:03:44Z) - Chinese Text Recognition with A Pre-Trained CLIP-Like Model Through
Image-IDS Aligning [61.34060587461462]
中国語テキスト認識(CTR)のための2段階フレームワークを提案する。
印刷文字画像とIdeographic Description Sequences (IDS) の整列によるCLIP様モデルの事前学習を行う。
この事前学習段階は、漢字を認識する人間をシミュレートし、各文字の標準表現を得る。
学習された表現はCTRモデルを監督するために使用され、従来の単一文字認識はテキストライン認識に改善される。
論文 参考訳(メタデータ) (2023-09-03T05:33:16Z) - User-Centric Evaluation of OCR Systems for Kwak'wala [92.73847703011353]
OCRを利用すると、文化的に価値ある文書の書き起こしに費やした時間を50%以上削減できることを示す。
この結果から,OCRツールが下流言語ドキュメントや再生作業において持つ潜在的なメリットが示された。
論文 参考訳(メタデータ) (2023-02-26T21:41:15Z) - Lexically Aware Semi-Supervised Learning for OCR Post-Correction [90.54336622024299]
世界中の多くの言語における既存の言語データの多くは、非デジタル化された書籍や文書に閉じ込められている。
従来の研究は、あまり良くない言語を認識するためのニューラル・ポスト・コレクション法の有用性を実証してきた。
そこで本研究では,生画像を利用した半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2021-11-04T04:39:02Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - I2C2W: Image-to-Character-to-Word Transformers for Accurate Scene Text
Recognition [68.95544645458882]
本稿では,シーンの様々なノイズに対して正確かつ耐性のある新しいシーンテキスト認識装置I2C2Wについて述べる。
i2c2wはイメージ・ツー・キャラクタモジュール(i2c)と文字・ワードモジュール(c2w)から構成される。
論文 参考訳(メタデータ) (2021-05-18T09:20:58Z) - A Multiplexed Network for End-to-End, Multilingual OCR [20.818532124822713]
単語レベルでスクリプト識別を行い,異なる認識ヘッドで異なるスクリプトを処理するE2Eアプローチ,Multiplexed Multilingual Mask TextSpotterを提案する。
実験の結果,本手法は終端認識タスクにおいて,パラメータ数に類似した単一ヘッドモデルよりも優れていた。
私たちは、エンドツーエンドのトレーニング可能でスケーラブルな多言語多目的OCRシステムへの一歩だと信じています。
論文 参考訳(メタデータ) (2021-03-29T23:53:49Z) - Intrinsic Image Captioning Evaluation [53.51379676690971]
I2CE(Intrinsic Image Captioning Evaluation)と呼ばれる画像キャプションのための学習ベースメトリクスを提案する。
実験の結果,提案手法は頑健な性能を維持し,意味的類似表現やアライメントの少ない意味論に遭遇した場合,候補キャプションに対してより柔軟なスコアを与えることができた。
論文 参考訳(メタデータ) (2020-12-14T08:36:05Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - A Multitask Learning Approach for Diacritic Restoration [21.288912928687186]
アラビア語のような多くの言語では、発音と意味を区別するためにダイアクリティカルが用いられる。
このようなダイアクリティカル語はテキストで省略されることが多く、単語の発音や意味の数が増加する。
我々は、共同モデリングにおいて考慮すべきタスクに十分なデータ資源があるため、ケーススタディとしてアラビア語を使用します。
論文 参考訳(メタデータ) (2020-06-07T01:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。