論文の概要: A Study on Effects of Implicit and Explicit Language Model Information
for DBLSTM-CTC Based Handwriting Recognition
- arxiv url: http://arxiv.org/abs/2008.01532v1
- Date: Fri, 31 Jul 2020 08:23:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-04 07:07:11.923962
- Title: A Study on Effects of Implicit and Explicit Language Model Information
for DBLSTM-CTC Based Handwriting Recognition
- Title(参考訳): DBLSTM-CTCを用いた手書き文字認識における暗黙的・明示的言語モデル情報の効果に関する研究
- Authors: Qi Liu, Lijuan Wang, Qiang Huo
- Abstract要約: 本稿では,DBLSTM-CTCを用いた手書き文字認識における暗黙的および明示的言語モデル情報の効果について検討する。
DBLSTMをトレーニングするために100万行のトレーニング文を使用しても、明示的な言語モデルを使用することは有用です。
- 参考スコア(独自算出の注目度): 51.36957172200015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Bidirectional Long Short-Term Memory (D-BLSTM) with a Connectionist
Temporal Classification (CTC) output layer has been established as one of the
state-of-the-art solutions for handwriting recognition. It is well known that
the DBLSTM trained by using a CTC objective function will learn both local
character image dependency for character modeling and long-range contextual
dependency for implicit language modeling. In this paper, we study the effects
of implicit and explicit language model information for DBLSTM-CTC based
handwriting recognition by comparing the performance of using or without using
an explicit language model in decoding. It is observed that even using one
million lines of training sentences to train the DBLSTM, using an explicit
language model is still helpful. To deal with such a large-scale training
problem, a GPU-based training tool has been developed for CTC training of
DBLSTM by using a mini-batch based epochwise Back Propagation Through Time
(BPTT) algorithm.
- Abstract(参考訳): 直交時間分類(CTC)出力層を備えたD-BLSTM(Deep Bidirectional Long Short-Term Memory)が手書き認識のための最先端ソリューションとして確立されている。
CTC目的関数を用いて訓練されたDBLSTMは、文字モデリングのためのローカル文字画像依存性と暗黙的な言語モデリングのための長距離コンテキスト依存性の両方を学ぶことはよく知られている。
本稿では,DBLSTM-CTCを用いた手書き文字認識における暗黙的および明示的言語モデル情報の効果について,明示的言語モデルを用いた復号化の性能の比較を行った。
100万行のトレーニング文を使用してDBLSTMをトレーニングしても、明示的な言語モデルを使用することは有用である。
このような大規模トレーニング問題に対処するために,mini-batch based epochwise back propagation through time (bptt)アルゴリズムを用いて,dblstmのctcトレーニング用gpuベースのトレーニングツールを開発した。
関連論文リスト
- CLEFT: Language-Image Contrastive Learning with Efficient Large Language Model and Prompt Fine-Tuning [4.004641316826348]
効率的な大言語モデルとファインチューニング(CLEFT)を併用した新しい言語画像コントラスト学習手法を提案する。
複数の胸部X線およびマンモグラフィーデータセットの最先端性能を示す。
提案手法は,既存のBERTエンコーダと比較して,トレーニング可能なモデル全体のサイズを39%削減し,トレーニング可能な言語モデルを4%に削減する。
論文 参考訳(メタデータ) (2024-07-30T17:57:32Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - Improving CTC-based speech recognition via knowledge transferring from
pre-trained language models [30.599901925058873]
CTCに基づくモデルを改善するために,2つの知識伝達手法を提案する。
最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。
第2の方法は、テキストモデリングのためのGPT2とハイブリッドCTC/アテンションアーキテクチャを組み合わせた共同分類学習に基づいている。
論文 参考訳(メタデータ) (2022-02-22T11:30:55Z) - MATE-KD: Masked Adversarial TExt, a Companion to Knowledge Distillation [9.91548921801095]
本稿では,知識蒸留の性能を向上させる新しいテキストベース対逆学習アルゴリズムであるMATE-KDを提案する。
我々は,BERTモデルを用いたアルゴリズムをGLUEベンチマークで評価し,MATE-KDが競合する対角学習やデータ拡張ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-05-12T19:11:34Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。