論文の概要: Recurrent neural network transducer for Japanese and Chinese offline
handwritten text recognition
- arxiv url: http://arxiv.org/abs/2106.14459v1
- Date: Mon, 28 Jun 2021 08:16:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:04:21.419958
- Title: Recurrent neural network transducer for Japanese and Chinese offline
handwritten text recognition
- Title(参考訳): 日本語と中国語のオフライン手書き文字認識のための繰り返しニューラルネットワークトランスデューサ
- Authors: Trung Tan Ngo, Hung Tuan Nguyen, Nam Tuan Ly, Masaki Nakagawa
- Abstract要約: 日本語と中国語のオフラインテキスト行画像を認識するためのRNN-Transducerモデルを提案する。
提案モデルでは,入力画像からの視覚情報と言語情報の両方を利用する。
実験結果から,提案モデルが全データセットの最先端性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 5.704448607986111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose an RNN-Transducer model for recognizing Japanese
and Chinese offline handwritten text line images. As far as we know, it is the
first approach that adopts the RNN-Transducer model for offline handwritten
text recognition. The proposed model consists of three main components: a
visual feature encoder that extracts visual features from an input image by CNN
and then encodes the visual features by BLSTM; a linguistic context encoder
that extracts and encodes linguistic features from the input image by embedded
layers and LSTM; and a joint decoder that combines and then decodes the visual
features and the linguistic features into the final label sequence by fully
connected and softmax layers. The proposed model takes advantage of both visual
and linguistic information from the input image. In the experiments, we
evaluated the performance of the proposed model on the two datasets: Kuzushiji
and SCUT-EPT. Experimental results show that the proposed model achieves
state-of-the-art performance on all datasets.
- Abstract(参考訳): 本稿では,日本語と中国語のオフライン手書きテキストを認識できるrnn-transducerモデルを提案する。
我々の知る限り、これはオフライン手書き文字認識にRNN-Transducerモデルを採用する最初のアプローチである。
提案モデルは,CNN による入力画像から視覚特徴を抽出し,BLSTM による視覚特徴を符号化する視覚特徴エンコーダ,組込み層とLSTM による入力画像から言語特徴を抽出・符号化する言語コンテキストエンコーダ,そして,視覚特徴と言語特徴を完全連結層とソフトマックス層により最終ラベルシーケンスに合成・復号する共同デコーダの3つの構成からなる。
提案モデルは入力画像からの視覚情報と言語情報の両方を利用する。
実験では, 提案モデルの性能を2つのデータセット, Kuzushiji と SCUT-EPT で評価した。
実験結果から,提案モデルが全データセットの最先端性能を実現することが示された。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Towards Retrieval-Augmented Architectures for Image Captioning [81.11529834508424]
本研究は,外部kNNメモリを用いた画像キャプションモデルの構築に向けた新しい手法を提案する。
具体的には、視覚的類似性に基づく知識検索コンポーネントを組み込んだ2つのモデル変種を提案する。
我々はCOCOデータセットとnocapsデータセットに対する我々のアプローチを実験的に検証し、明示的な外部メモリを組み込むことでキャプションの品質を著しく向上させることができることを示した。
論文 参考訳(メタデータ) (2024-05-21T18:02:07Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Language Quantized AutoEncoders: Towards Unsupervised Text-Image
Alignment [81.73717488887938]
Language-Quantized AutoEncoder (LQAE)は、事前訓練された言語モデルを利用して、教師なしの方法でテキストイメージデータを整列することを学ぶ。
LQAEは類似した画像を類似したテキストトークンのクラスタで表現することを学び、一致したテキストイメージペアを使わずにこれら2つのモダリティを整列させる。
これにより、大きな言語モデル(例えばGPT-3)による少数ショット画像の分類や、BERTテキストの特徴に基づく画像の線形分類が可能になる。
論文 参考訳(メタデータ) (2023-02-02T06:38:44Z) - MaskOCR: Text Recognition with Masked Encoder-Decoder Pretraining [68.05105411320842]
本稿では,従来のエンコーダ・デコーダ認識フレームワークにおいて,視覚と言語を事前学習するための新しいアプローチであるMaskOCRを提案する。
マスク付き画像モデリング手法を用いて、未ラベルのテキスト画像の集合を用いて特徴エンコーダを事前学習する。
テキストデータを合成されたテキスト画像に変換し、視覚と言語のデータモダリティを統一し、シーケンスデコーダの言語モデリング能力を向上する。
論文 参考訳(メタデータ) (2022-06-01T08:27:19Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Primitive Representation Learning for Scene Text Recognition [7.818765015637802]
本研究では,シーンテキスト画像の固有表現を活用した原始表現学習手法を提案する。
プリミティブ表現学習ネットワーク(PREN)は、並列デコードに視覚テキスト表現を使用するために構築される。
また,注意に基づく手法における不整合問題を軽減するために PREN2D というフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-10T11:54:49Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。