論文の概要: Enhancing Handwritten Text Recognition with N-gram sequence
decomposition and Multitask Learning
- arxiv url: http://arxiv.org/abs/2012.14459v1
- Date: Mon, 28 Dec 2020 19:35:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 13:14:56.983118
- Title: Enhancing Handwritten Text Recognition with N-gram sequence
decomposition and Multitask Learning
- Title(参考訳): N-gram 配列分解とマルチタスク学習による手書き文字認識の強化
- Authors: Vasiliki Tassopoulou, George Retsinas, Petros Maragos
- Abstract要約: 手書きテキスト認識の分野における現在のアプローチは、主にユニグラム、文字レベルターゲットユニットを備えた単一のタスクです。
本研究では, 多タスク学習方式を用いて, 異なる粒度の目標単位を用いて, 対象シーケンスの分解を行うためのモデルを訓練する。
提案モデルでは,ユニグラムのタスクでのみ評価されるが,WERが2.52%,CERが1.02%と同等である。
- 参考スコア(独自算出の注目度): 36.69114677635806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current state-of-the-art approaches in the field of Handwritten Text
Recognition are predominately single task with unigram, character level target
units. In our work, we utilize a Multi-task Learning scheme, training the model
to perform decompositions of the target sequence with target units of different
granularity, from fine to coarse. We consider this method as a way to utilize
n-gram information, implicitly, in the training process, while the final
recognition is performed using only the unigram output. % in order to highlight
the difference of the internal Unigram decoding of such a multi-task approach
highlights the capability of the learned internal representations, imposed by
the different n-grams at the training step. We select n-grams as our target
units and we experiment from unigrams to fourgrams, namely subword level
granularities. These multiple decompositions are learned from the network with
task-specific CTC losses. Concerning network architectures, we propose two
alternatives, namely the Hierarchical and the Block Multi-task. Overall, our
proposed model, even though evaluated only on the unigram task, outperforms its
counterpart single-task by absolute 2.52\% WER and 1.02\% CER, in the greedy
decoding, without any computational overhead during inference, hinting towards
successfully imposing an implicit language model.
- Abstract(参考訳): 手書き文字認識の分野における最先端のアプローチは、1igram, character level target unit で主に単一のタスクである。
本研究では,マルチタスク学習方式を用いて,ターゲット配列の分解を微粒度から粗度まで異なる対象単位で行うように訓練する。
本手法は,学習過程において暗黙的にn-gram情報を利用する方法であり,ユニグラム出力のみを用いて最終認識を行う。
このようなマルチタスクアプローチにおける内部Unigramデコーディングの違いを強調するために、トレーニングステップで異なるn-gramによって課される学習内部表現の能力を強調した。
対象単位としてn-gramを選択し,ユニグラムから4-gram,すなわちサブワードレベルの粒度を実験した。
これらの多重分解は、タスク固有のCTC損失を伴うネットワークから学習される。
ネットワークアーキテクチャに関しては,階層型とブロックマルチタスクという2つの選択肢を提案する。
全体として,提案手法はユニグラムタスクでのみ評価されるが,絶対2.52 % WER と 1.02 % CER の計算オーバーヘッドを伴わず,暗黙的な言語モデルの導入に成功するためのヒントとなる。
関連論文リスト
- Fast Inference and Transfer of Compositional Task Structures for
Few-shot Task Generalization [101.72755769194677]
本稿では,タスクがサブタスクグラフによって特徴づけられる,数発の強化学習問題として定式化する。
我々のマルチタスクサブタスクグラフ推論器(MTSGI)は、トレーニングタスクから、まず、サブタスクグラフの観点から、一般的なハイレベルなタスク構造を推測する。
提案手法は,2次元グリッドワールドおよび複雑なWebナビゲーション領域において,タスクの共通基盤構造を学習し,活用し,未知のタスクへの適応を高速化する。
論文 参考訳(メタデータ) (2022-05-25T10:44:25Z) - Improving Multi-task Generalization Ability for Neural Text Matching via
Prompt Learning [54.66399120084227]
最近の最先端のニューラルテキストマッチングモデル(PLM)は、様々なタスクに一般化することが難しい。
我々は、特殊化一般化訓練戦略を採用し、それをMatch-Promptと呼ぶ。
特殊化段階では、異なるマッチングタスクの記述はいくつかのプロンプトトークンにマッピングされる。
一般化段階において、テキストマッチングモデルは、多種多様なマッチングタスクを訓練することにより、本質的なマッチング信号を探索する。
論文 参考訳(メタデータ) (2022-04-06T11:01:08Z) - Histogram of Oriented Gradients Meet Deep Learning: A Novel Multi-task
Deep Network for Medical Image Semantic Segmentation [18.066680957993494]
医用画像セグメンテーションのための深層マルチタスク学習法を提案する。
教師なしの方法で補助作業の擬似ラベルを生成する。
本手法は, 対数部法と比較して連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-04-02T23:50:29Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Multi-View Graph Representation for Programming Language Processing: An
Investigation into Algorithm Detection [35.81014952109471]
本稿では,マルチビューグラフ(MVG)プログラム表現法を提案する。
MVGはコードのセマンティクスにより多くの注意を払っており、同時に複数のビューとしてデータフローと制御フローの両方を含んでいる。
実験では、MVGは従来の方法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-25T03:35:45Z) - Active Multi-Task Representation Learning [50.13453053304159]
本研究は,アクティブラーニングの手法を活用することで,資源タスクのサンプリングに関する最初の公式な研究を行う。
提案手法は, 対象タスクに対する各ソースタスクの関連性を反復的に推定し, その関連性に基づいて各ソースタスクからサンプルを抽出するアルゴリズムである。
論文 参考訳(メタデータ) (2022-02-02T08:23:24Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - Graph Representation Learning for Multi-Task Settings: a Meta-Learning
Approach [5.629161809575013]
メタ学習に基づくグラフ表現学習のための新しい学習戦略を提案する。
本手法は,複数タスクの同時実行学習において発生する問題を回避する。
我々は,本手法で訓練したモデルが生成した埋め込みを,単一タスクとマルチタスクの両エンドツーエンドモデルに匹敵する,あるいは驚くほど高いパフォーマンスで複数のタスクを実行できることを示す。
論文 参考訳(メタデータ) (2022-01-10T12:58:46Z) - Distribution Alignment: A Unified Framework for Long-tail Visual
Recognition [52.36728157779307]
長尾視覚認識のための分散アライメント戦略を提案する。
次に,二段階学習における一般化された再重み付け法を導入して,事前のクラスバランスをとる。
提案手法は, 4つの認識タスクすべてにおいて, 単純で統一されたフレームワークを用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-03-30T14:09:53Z) - Sequence-to-Sequence Contrastive Learning for Text Recognition [29.576864819760498]
本稿では,視覚表現のシーケンス間コントラスト学習(seqclr)のためのフレームワークを提案する。
手書きテキストとシーンテキストの実験では,学習した表現に基づいてテキストデコーダを訓練すると,非逐次コントラスト法よりも優れることを示す。
論文 参考訳(メタデータ) (2020-12-20T09:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。