論文の概要: Count, Decode and Fetch: A New Approach to Handwritten Chinese Character
Error Correction
- arxiv url: http://arxiv.org/abs/2307.16253v1
- Date: Sun, 30 Jul 2023 15:19:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 16:50:16.830093
- Title: Count, Decode and Fetch: A New Approach to Handwritten Chinese Character
Error Correction
- Title(参考訳): Count, Decode and Fetch: 手書き漢字誤り訂正の新しいアプローチ
- Authors: Pengfei Hu, Jiefeng Ma, Zhenrong Zhang, Jun Du and Jianshu Zhang
- Abstract要約: 未確認文字に対するより良い一般化を示す新しいアプローチであるCount,Decode and Fetch(CDF)を紹介する。
CDFは主にカウンタ、デコーダ、フェッチの3つの部分で構成されている。
提案手法を既存のエンコーダデコーダモデルに統合し,性能を大幅に向上させる。
- 参考スコア(独自算出の注目度): 32.469093663126586
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, handwritten Chinese character error correction has been greatly
improved by employing encoder-decoder methods to decompose a Chinese character
into an ideographic description sequence (IDS). However, existing methods
implicitly capture and encode linguistic information inherent in IDS sequences,
leading to a tendency to generate IDS sequences that match seen characters.
This poses a challenge when dealing with an unseen misspelled character, as the
decoder may generate an IDS sequence that matches a seen character instead.
Therefore, we introduce Count, Decode and Fetch (CDF), a novel approach that
exhibits better generalization towards unseen misspelled characters. CDF is
mainly composed of three parts: the counter, the decoder, and the fetcher. In
the first stage, the counter predicts the number of each radical class without
the symbol-level position annotations. In the second stage, the decoder employs
the counting information and generates the IDS sequence step by step. Moreover,
by updating the counting information at each time step, the decoder becomes
aware of the existence of each radical. With the decomposed IDS sequence, we
can determine whether the given character is misspelled. If it is misspelled,
the fetcher under the transductive transfer learning strategy predicts the
ideal character that the user originally intended to write. We integrate our
method into existing encoder-decoder models and significantly enhance their
performance.
- Abstract(参考訳): 近年,漢字をイデオロギー記述シーケンス(IDS)に分解するエンコーダデコーダ法を用いることで,手書き漢字の誤り訂正が大幅に改善されている。
しかし、既存の手法では、IDS配列に固有の言語情報を暗黙的にキャプチャし、エンコードし、文字と一致するIDS配列を生成する傾向にある。
これは、デコーダが代わりに見た文字にマッチするIDSシーケンスを生成するため、目に見えないミススペル文字を扱う場合の課題である。
そこで我々は,未確認の誤字に対するより優れた一般化を示す新しいアプローチであるCount,Decode and Fetch(CDF)を紹介する。
CDFは主にカウンタ、デコーダ、フェッチの3つの部分で構成されている。
第1段階では、カウンタはシンボルレベルの位置アノテーションなしで各ラジカルクラスの数を予測する。
第2段階では、デコーダはカウント情報を使用し、ステップごとにIDSシーケンスステップを生成する。
さらに、各時間ステップで計数情報を更新することにより、デコーダは各ラジカルの存在を認識する。
分解されたIDSシーケンスで、与えられた文字がミススペルされているかどうかを判断できる。
ミススペルされた場合、トランスダクティブ転送学習戦略下のフェッチーは、ユーザが元々書こうとしていた理想的特徴を予測する。
提案手法を既存のエンコーダデコーダモデルに統合し,性能を大幅に向上させる。
関連論文リスト
- T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Context Perception Parallel Decoder for Scene Text Recognition [52.620841341333524]
シーンテキスト認識手法は高い精度と高速な推論速度を達成するのに苦労している。
本稿では、STRにおけるARデコーディングの実証的研究を行い、ARデコーダが言語文脈をモデル化するだけでなく、視覚的文脈知覚のガイダンスも提供することを明らかにする。
我々は一連のCPPDモデルを構築し、提案したモジュールを既存のSTRデコーダにプラグインする。英語と中国語のベンチマーク実験により、CPPDモデルはARベースモデルよりも約8倍高速に動作し、高い競争精度を達成できることを示した。
論文 参考訳(メタデータ) (2023-07-23T09:04:13Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - A Few-shot Learning Approach for Historical Ciphered Manuscript
Recognition [3.0682439731292592]
少数ショットオブジェクト検出に基づく手書き音声認識のための新しい手法を提案する。
合成データのトレーニングにより,提案アーキテクチャは未知のアルファベットで手書きの暗号を認識可能であることを示す。
論文 参考訳(メタデータ) (2020-09-26T11:49:18Z) - Consistent Multiple Sequence Decoding [36.46573114422263]
一貫性のある多重シーケンスデコーディングアーキテクチャを導入する。
このアーキテクチャは任意の数のシーケンスを一貫した同時復号化を可能にする。
重回帰画像キャプションにおける一貫した多重シーケンスデコーダの有効性を示す。
論文 参考訳(メタデータ) (2020-04-02T00:43:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。