論文の概要: Enhancing Handwritten Text Recognition with N-gram sequence
decomposition and Multitask Learning
- arxiv url: http://arxiv.org/abs/2012.14459v1
- Date: Mon, 28 Dec 2020 19:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 13:14:56.983118
- Title: Enhancing Handwritten Text Recognition with N-gram sequence
decomposition and Multitask Learning
- Title(参考訳): N-gram 配列分解とマルチタスク学習による手書き文字認識の強化
- Authors: Vasiliki Tassopoulou, George Retsinas, Petros Maragos
- Abstract要約: 手書きテキスト認識の分野における現在のアプローチは、主にユニグラム、文字レベルターゲットユニットを備えた単一のタスクです。
本研究では, 多タスク学習方式を用いて, 異なる粒度の目標単位を用いて, 対象シーケンスの分解を行うためのモデルを訓練する。
提案モデルでは,ユニグラムのタスクでのみ評価されるが,WERが2.52%,CERが1.02%と同等である。
- 参考スコア(独自算出の注目度): 36.69114677635806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art approaches in the field of Handwritten Text
Recognition are predominately single task with unigram, character level target
units. In our work, we utilize a Multi-task Learning scheme, training the model
to perform decompositions of the target sequence with target units of different
granularity, from fine to coarse. We consider this method as a way to utilize
n-gram information, implicitly, in the training process, while the final
recognition is performed using only the unigram output. % in order to highlight
the difference of the internal Unigram decoding of such a multi-task approach
highlights the capability of the learned internal representations, imposed by
the different n-grams at the training step. We select n-grams as our target
units and we experiment from unigrams to fourgrams, namely subword level
granularities. These multiple decompositions are learned from the network with
task-specific CTC losses. Concerning network architectures, we propose two
alternatives, namely the Hierarchical and the Block Multi-task. Overall, our
proposed model, even though evaluated only on the unigram task, outperforms its
counterpart single-task by absolute 2.52\% WER and 1.02\% CER, in the greedy
decoding, without any computational overhead during inference, hinting towards
successfully imposing an implicit language model.
- Abstract(参考訳): 手書き文字認識の分野における最先端のアプローチは、1igram, character level target unit で主に単一のタスクである。
本研究では,マルチタスク学習方式を用いて,ターゲット配列の分解を微粒度から粗度まで異なる対象単位で行うように訓練する。
本手法は,学習過程において暗黙的にn-gram情報を利用する方法であり,ユニグラム出力のみを用いて最終認識を行う。
このようなマルチタスクアプローチにおける内部Unigramデコーディングの違いを強調するために、トレーニングステップで異なるn-gramによって課される学習内部表現の能力を強調した。
対象単位としてn-gramを選択し,ユニグラムから4-gram,すなわちサブワードレベルの粒度を実験した。
これらの多重分解は、タスク固有のCTC損失を伴うネットワークから学習される。
ネットワークアーキテクチャに関しては,階層型とブロックマルチタスクという2つの選択肢を提案する。
全体として,提案手法はユニグラムタスクでのみ評価されるが,絶対2.52 % WER と 1.02 % CER の計算オーバーヘッドを伴わず,暗黙的な言語モデルの導入に成功するためのヒントとなる。
関連論文リスト
- Multi-Task Consistency for Active Learning [18.794331424921946]
不整合に基づくアクティブラーニングは、アノテーションに対する情報的サンプルの選択に有効であることが証明されている。
本稿では,オブジェクト検出とセマンティックセグメンテーションという2つの複合視覚タスクのための,新しいマルチタスク能動学習戦略を提案する。
提案手法は、利用可能なデータのわずか67%を使用して、完全にトレーニングされたパフォーマンスの95%を達成している。
論文 参考訳(メタデータ) (2023-06-21T17:34:31Z) - Neural Coreference Resolution based on Reinforcement Learning [53.73316523766183]
コアレゾリューションシステムは2つのサブタスクを解決する必要がある。
ひとつのタスクは、潜在的な言及のすべてを検出することであり、もう1つは、可能な言及ごとに前者のリンクを学習することである。
本稿では,アクターをベースとした強化学習型ニューラルコア参照分解システムを提案する。
論文 参考訳(メタデータ) (2022-12-18T07:36:35Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - Effective Cross-Task Transfer Learning for Explainable Natural Language
Inference with T5 [50.574918785575655]
2つのタスクのパフォーマンス向上という文脈において、逐次微調整とマルチタスク学習のモデルを比較した。
この結果から,2つのタスクのうち,第1のタスクにおいて逐次マルチタスク学習は良好に調整できるが,第2のタスクでは性能が低下し,過度な適合に苦しむことが明らかとなった。
論文 参考訳(メタデータ) (2022-10-31T13:26:08Z) - Word Sense Induction with Hierarchical Clustering and Mutual Information
Maximization [14.997937028599255]
単語知覚誘導は自然言語処理において難しい問題である。
階層的クラスタリングと不変情報クラスタリングに基づく新しい教師なし手法を提案する。
我々は、ある場合において、我々のアプローチが先行したWSIの最先端手法よりも優れていることを実証的に実証した。
論文 参考訳(メタデータ) (2022-10-11T13:04:06Z) - Histogram of Oriented Gradients Meet Deep Learning: A Novel Multi-task
Deep Network for Medical Image Semantic Segmentation [18.066680957993494]
医用画像セグメンテーションのための深層マルチタスク学習法を提案する。
教師なしの方法で補助作業の擬似ラベルを生成する。
本手法は, 対数部法と比較して連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-04-02T23:50:29Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Keyphrase Extraction with Dynamic Graph Convolutional Networks and
Diversified Inference [50.768682650658384]
キーワード抽出(KE)は、ある文書でカバーされている概念やトピックを正確に表現するフレーズの集合を要約することを目的としている。
最近のシークエンス・ツー・シークエンス(Seq2Seq)ベースの生成フレームワークはKEタスクで広く使われ、様々なベンチマークで競合性能を得た。
本稿では,この2つの問題を同時に解くために,動的グラフ畳み込みネットワーク(DGCN)を採用することを提案する。
論文 参考訳(メタデータ) (2020-10-24T08:11:23Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。