論文の概要: An End-to-End Khmer Optical Character Recognition using
Sequence-to-Sequence with Attention
- arxiv url: http://arxiv.org/abs/2106.10875v1
- Date: Mon, 21 Jun 2021 06:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 00:50:52.118992
- Title: An End-to-End Khmer Optical Character Recognition using
Sequence-to-Sequence with Attention
- Title(参考訳): シーケンス・ツー・シーケンス・アテンションを用いた終端クメール光文字認識
- Authors: Rina Buoy and Sokchea Kor and Nguonly Taing
- Abstract要約: 本稿では,Khmer光文字認識(OCR)タスクのための終端から終端までの深部畳み込みリカレントニューラルネットワークソリューションを提案する。
提案手法は,アテンション機構を備えたシーケンス・ツー・シーケンス(Seq2Seq)アーキテクチャを用いている。
Seq2Seq Khmer OCRネットワークは、7つの共通のKhmerフォントのための大量のコンピュータ生成テキストラインイメージに基づいて訓練された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end deep convolutional recurrent neural network
solution for Khmer optical character recognition (OCR) task. The proposed
solution uses a sequence-to-sequence (Seq2Seq) architecture with attention
mechanism. The encoder extracts visual features from an input text-line image
via layers of residual convolutional blocks and a layer of gated recurrent
units (GRU). The features are encoded in a single context vector and a sequence
of hidden states which are fed to the decoder for decoding one character at a
time until a special end-of-sentence (EOS) token is reached. The attention
mechanism allows the decoder network to adaptively select parts of the input
image while predicting a target character. The Seq2Seq Khmer OCR network was
trained on a large collection of computer-generated text-line images for seven
common Khmer fonts. The proposed model's performance outperformed the
state-of-art Tesseract OCR engine for Khmer language on the 3000-images test
set by achieving a character error rate (CER) of 1% vs 3%.
- Abstract(参考訳): 本稿では,Khmer光文字認識(OCR)タスクのための終端から終端までの深部畳み込みリカレントニューラルネットワークソリューションを提案する。
提案手法は,アテンション機構を備えたSeq2Seqアーキテクチャを用いている。
エンコーダは、残差畳み込みブロックの層とゲート再帰ユニット(GRU)の層を介して入力されたテキストライン画像から視覚的特徴を抽出する。
特徴は1つのコンテキストベクトルと1つの文字をデコードするためにデコーダに供給される隠された状態列にエンコードされ、特別な終止符(EOS)トークンに到達するまで1つの文字をデコードする。
注意機構により、ターゲットキャラクタを予測しながら、デコーダネットワークが入力画像の一部を適応的に選択することができる。
Seq2Seq Khmer OCRネットワークは、7つの共通のKhmerフォントのための大量のコンピュータ生成テキストラインイメージに基づいて訓練された。
提案モデルの性能は、文字誤り率 (cer) を1%と3%とすることで、3000画像テストセットでkhmer言語における最先端のtesseract ocrエンジンを上回った。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Image Captioning based on Feature Refinement and Reflective Decoding [0.0]
本稿では,エンコーダデコーダを用いた画像キャプションシステムを提案する。
画像の各領域の空間的特徴とグローバルな特徴をResNet-101をバックボーンとしてFaster R-CNNを使って抽出する。
デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールからなり、デコーダの長期的なシーケンシャル依存関係をモデル化する能力を高める。
論文 参考訳(メタデータ) (2022-06-16T07:56:28Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - CoCa: Contrastive Captioners are Image-Text Foundation Models [41.759438751996505]
Contrastive Captioner (CoCa) は、画像テキストエンコーダ/デコーダの基礎モデルを事前訓練するための最小限の設計である。
同じ計算グラフを共有することで、2つのトレーニング目標を最小限のオーバーヘッドで効率的に計算する。
CoCaは、幅広い下流タスクに対するゼロショット転送または最小限のタスク特化で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-04T07:01:14Z) - On-Device Spatial Attention based Sequence Learning Approach for Scene
Text Script Identification [0.0]
シーンテキストスクリプト識別のための,効率的な,リアルタイム,オンデバイス空間アテンションに基づくCNN-LSTMネットワークを提案する。
我々のネットワークはCNNで構成されており、自然画像における空間歪みを低減するための空間アテンションモジュールを備えている。
ネットワークは最先端の手法と競合する精度を達成し、ネットワークサイズは1100万のパラメータと2.7ミリ秒の推論時間で優れている。
論文 参考訳(メタデータ) (2021-12-01T12:16:02Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - An Efficient Language-Independent Multi-Font OCR for Arabic Script [0.0]
本稿では,アラビア文字のスキャン画像を入力として取り出し,対応するデジタル文書を生成する完全アラビアOCRシステムを提案する。
また,現在最先端のセグメンテーションアルゴリズムよりも優れたフォント非依存文字アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-09-18T22:57:03Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。