論文の概要: Attention-based Fully Gated CNN-BGRU for Russian Handwritten Text
- arxiv url: http://arxiv.org/abs/2008.05373v5
- Date: Thu, 20 Aug 2020 13:59:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 04:44:41.209552
- Title: Attention-based Fully Gated CNN-BGRU for Russian Handwritten Text
- Title(参考訳): 意図に基づくロシア語手書きテキスト用フルゲートCNN-BGRU
- Authors: Abdelrahman Abdallah, Mohamed Hamada and Daniyar Nurseitov
- Abstract要約: 本研究は、カザフ語とロシア語で訓練されたアテンションエンコーダ・デコーダネットワークを用いた手書きテキストのタスクにアプローチする。
我々は,複数の双方向GRUと注意機構をサポートした,完全ゲートCNNに基づく新しいディープニューラルネットワークモデルを開発した。
我々の研究は、HKRデータセットに関する最初の研究であり、既存のほとんどのモデルに最先端の結果を示す。
- 参考スコア(独自算出の注目度): 0.5371337604556311
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This research approaches the task of handwritten text with attention
encoder-decoder networks that are trained on Kazakh and Russian language. We
developed a novel deep neural network model based on Fully Gated CNN, supported
by Multiple bidirectional GRU and Attention mechanisms to manipulate
sophisticated features that achieve 0.045 Character Error Rate (CER), 0.192
Word Error Rate (WER) and 0.253 Sequence Error Rate (SER) for the first test
dataset and 0.064 CER, 0.24 WER and 0.361 SER for the second test dataset.
Also, we propose fully gated layers by taking the advantage of multiple the
output feature from Tahn and input feature, this proposed work achieves better
results and We experimented with our model on the Handwritten Kazakh & Russian
Database (HKR). Our research is the first work on the HKR dataset and
demonstrates state-of-the-art results to most of the other existing models.
- Abstract(参考訳): 本研究では,カザフ語とロシア語で学習した注意エンコーダ・デコーダネットワークを用いて,手書きテキストのタスクにアプローチする。
我々は、第1テストデータセットでは0.045文字誤り率(CER)、0.192ワード誤り率(WER)、0.253シーケンス誤り率(SER)、第2テストデータセットでは0.064文字誤り率(CER)、0.024文字誤り率(WER)、0.361文字誤り率(SER)を実現する高度な特徴を操作するために、複数双方向GRUとアテンションメカニズムによってサポートされた、新しいディープニューラルネットワークモデルを開発した。
また,Tanhnから出力する複数の特徴と入力特徴を活かして完全なゲート層を提案するとともに,提案手法によりより優れた結果が得られることを示すとともに,手書きカザフ語とロシア語のデータベース(HKR)上で実験を行った。
我々の研究は、HKRデータセットに関する最初の研究であり、既存のほとんどのモデルに最先端の結果を示す。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Classification of Non-native Handwritten Characters Using Convolutional Neural Network [0.0]
非ネイティブユーザによる英語文字の分類は、カスタマイズされたCNNモデルを提案することによって行われる。
我々はこのCNNを、手書きの独立した英語文字データセットと呼ばれる新しいデータセットでトレーニングする。
5つの畳み込み層と1つの隠蔽層を持つモデルでは、文字認識精度において最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-06-06T21:08:07Z) - On the Possibilities of AI-Generated Text Detection [76.55825911221434]
機械が生成するテキストが人間に近い品質を近似するにつれて、検出に必要なサンプルサイズが増大すると主張している。
GPT-2, GPT-3.5-Turbo, Llama, Llama-2-13B-Chat-HF, Llama-2-70B-Chat-HFなどの最先端テキストジェネレータをoBERTa-Large/Base-Detector, GPTZeroなどの検出器に対して試験した。
論文 参考訳(メタデータ) (2023-04-10T17:47:39Z) - AttentionHTR: Handwritten Text Recognition Based on Attention
Encoder-Decoder Networks [0.0]
本研究は,手書き単語認識のための注目に基づくシーケンス・ツー・シーケンス・モデルを提案する。
シーンテキストイメージに事前トレーニングされたモデルを、手書き認識モデルのカスタマイズに向けた出発点として活用する。
提案したエンドツーエンドHTRシステムの有効性は、新しいマルチライターデータセットで実証的に評価されている。
論文 参考訳(メタデータ) (2022-01-23T22:48:36Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - Classification of Handwritten Names of Cities and Handwritten Text
Recognition using Various Deep Learning Models [0.0]
我々は,手書き認識モデルの開発における近年の様々なアプローチと成果について述べる。
最初のモデルは、特徴抽出にディープ畳み込みニューラルネットワーク(CNN)、単語分類に完全に接続された多層パーセプトロンニューラルネットワーク(MLP)を使用する。
2つ目のモデルはSimpleHTRと呼ばれ、CNNとリカレントニューラルネットワーク(RNN)レイヤを使用して画像から情報を取り出す。
論文 参考訳(メタデータ) (2021-02-09T13:34:16Z) - Train your classifier first: Cascade Neural Networks Training from upper
layers to lower layers [54.47911829539919]
我々は,高品質な分類器を探索するアルゴリズムとして見ることのできる,新しいトップダウン学習手法を開発した。
本研究では,自動音声認識(ASR)タスクと言語モデリングタスクについて検討した。
提案手法は,Wall Street Journal 上でのリカレントニューラルネットワーク ASR モデル,Switchboard 上での自己注意型 ASR モデル,WikiText-2 上での AWD-LSTM 言語モデルなど,一貫して改善されている。
論文 参考訳(メタデータ) (2021-02-09T08:19:49Z) - TextGNN: Improving Text Encoder via Graph Neural Network in Sponsored
Search [11.203006652211075]
本稿では,ユーザの履歴行動から補完するグラフ情報を用いて,強いツインタワー構造エンコーダを自然に拡張するtextgnnモデルを提案する。
オフライン実験では、ロングテール低周波広告の精度が1%向上し、ROC-AUC全体の0.14%の増加を達成する。
オンラインa/bテストでは、1ミルあたりの収益が2.03%増加し、広告欠陥率は2.32%減少した。
論文 参考訳(メタデータ) (2021-01-15T23:12:47Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z) - Offline Handwritten Chinese Text Recognition with Convolutional Neural
Networks [5.984124397831814]
本稿では,畳み込みニューラルネットワークのみを用いてモデルを構築し,CTCを損失関数として利用する。
ICDAR 2013のコンペでは6.81%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-06-28T14:34:38Z) - Structured Multimodal Attentions for TextVQA [57.71060302874151]
上述の2つの問題を主に解決するために,終端から終端までの構造化マルチモーダルアテンション(SMA)ニューラルネットワークを提案する。
SMAはまず、画像に現れるオブジェクト・オブジェクト・オブジェクト・テキスト・テキストの関係を符号化するために構造グラフ表現を使用し、その後、それを推論するためにマルチモーダルグラフアテンションネットワークを設計する。
提案モデルでは,テキストVQAデータセットとST-VQAデータセットの2つのタスクを事前学習ベースTAP以外のモデルで比較した。
論文 参考訳(メタデータ) (2020-06-01T07:07:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。