論文の概要: Benchmarking Scene Text Recognition in Devanagari, Telugu and Malayalam
- arxiv url: http://arxiv.org/abs/2104.04437v1
- Date: Fri, 9 Apr 2021 15:36:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-12 14:02:44.622181
- Title: Benchmarking Scene Text Recognition in Devanagari, Telugu and Malayalam
- Title(参考訳): デヴァナガリー、テルグ、マラヤラムにおけるテキスト認識のベンチマーク
- Authors: Minesh Mathew, Mohit Jain and CV Jawahar
- Abstract要約: 英語のシーンテキスト認識におけるDeep Learningベースのアプローチの成功に触発されて、3つのIndicスクリプトのシーンテキスト認識をポーズし、ベンチマークする。
Unicodeフォントから描画された合成語画像は、認識システムの訓練に使用される。
私たちは、単語画像を対応するテキストに転写するために、セグメンテーションフリーでハイブリッドでエンドツーエンドのトレーニング可能なCNN-RNNディープニューラルネットワークを使用します。
- 参考スコア(独自算出の注目度): 34.83389169949119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inspired by the success of Deep Learning based approaches to English scene
text recognition, we pose and benchmark scene text recognition for three Indic
scripts - Devanagari, Telugu and Malayalam. Synthetic word images rendered from
Unicode fonts are used for training the recognition system. And the performance
is bench-marked on a new IIIT-ILST dataset comprising of hundreds of real scene
images containing text in the above mentioned scripts. We use a segmentation
free, hybrid but end-to-end trainable CNN-RNN deep neural network for
transcribing the word images to the corresponding texts. The cropped word
images need not be segmented into the sub-word units and the error is
calculated and backpropagated for the the given word image at once. The network
is trained using CTC loss, which is proven quite effective for
sequence-to-sequence transcription tasks. The CNN layers in the network learn
to extract robust feature representations from word images. The sequence of
features learnt by the convolutional block is transcribed to a sequence of
labels by the RNN+CTC block. The transcription is not bound by word length or a
lexicon and is ideal for Indian languages which are highly inflectional.
IIIT-ILST dataset, synthetic word images dataset and the script used to render
synthetic images are available at
http://cvit.iiit.ac.in/research/projects/cvit-projects/iiit-ilst
- Abstract(参考訳): Deep Learningベースの英語シーンテキスト認識の成功に触発されて、Devanagari、Telugu、Malayalamの3つのIndicスクリプトに対して、シーンテキスト認識をポーズし、ベンチマークする。
Unicodeフォントから描画された合成語画像は、認識システムの訓練に使用される。
そして、上記のスクリプトにテキストを含む数百の実シーン画像からなる新しいIIIT-ILSTデータセットに、パフォーマンスをベンチマークする。
我々は、単語イメージを対応するテキストに書き起こすために、セグメンテーションフリーでハイブリッドだがエンドツーエンドのトレーニング可能なCNN-RNNディープニューラルネットワークを使用する。
切り抜いた単語画像は、サブワード単位に区分される必要がなく、その誤りを算出し、所定の単語画像に対して同時にバックプロパゲーションする。
ネットワークはCTC損失を用いて訓練されており、シーケンス対シーケンスの転写タスクに非常に効果的であることが証明されている。
ネットワーク内のCNN層は、単語画像から堅牢な特徴表現を抽出することを学ぶ。
畳み込みブロックによって学習された特徴のシーケンスは、RNN+CTCブロックによってラベルのシーケンスに転写される。
文字は単語の長さや語彙に縛られず、高い屈折率を持つインドの言語に理想的である。
IIIT-ILSTデータセット、合成語画像データセット、合成画像のレンダリングに使われるスクリプトはhttp://cvit.iiit.ac.in/research/projects/cvit-projects/iiit-ilstで入手できる。
関連論文リスト
- Decoder Pre-Training with only Text for Scene Text Recognition [54.93037783663204]
シーンテキスト認識(STR)事前学習法は,主に合成データセットに依存し,顕著な進歩を遂げている。
STR(DPTR)用テキストのみを用いたDecoder Pre-trainingという新しい手法を提案する。
DPTRはCLIPテキストエンコーダが生成したテキスト埋め込みを擬似視覚埋め込みとして扱い、デコーダの事前訓練に使用する。
論文 参考訳(メタデータ) (2024-08-11T06:36:42Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Improving Cross-modal Alignment with Synthetic Pairs for Text-only Image
Captioning [13.357749288588039]
以前の作業では、教師なし設定下でのテキスト情報のみに依存して、画像キャプションのためのCLIPのクロスモーダルアソシエーション機能を活用していた。
本稿では,合成画像とテキストのペアを組み込むことにより,これらの問題に対処する新しい手法を提案する。
テキストデータに対応する画像を得るために、事前訓練されたテキスト・ツー・イメージモデルが配置され、CLIP埋め込み空間の実際の画像に対して、生成された画像の擬似特徴を最適化する。
論文 参考訳(メタデータ) (2023-12-14T12:39:29Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Denoising and Segmentation of Epigraphical Scripts [0.0]
画像はカーネルに分割され、それぞれがGLCM(Gray Level Co-Occurrence Matrix)に変換される。
Haralickの値とそれに対応するノイズ/テキスト分類は辞書を形成し、カーネル比較によって画像をノイズ化する。
ニューラルネットワークの精度は最大89%まで向上した。
論文 参考訳(メタデータ) (2021-07-25T13:25:08Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z) - SwapText: Image Based Texts Transfer in Scenes [13.475726959175057]
スワップテキスト(SwapText)はシーンイメージ間でテキストを転送するフレームワークである。
前景画像のみにテキストラベルを置換する新しいテキストスワップネットワークを提案する。
生成された前景画像と背景画像を用いて、融合ネットワークにより単語画像を生成する。
論文 参考訳(メタデータ) (2020-03-18T11:02:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。