論文の概要: PERT: A New Solution to Pinyin to Character Conversion Task
- arxiv url: http://arxiv.org/abs/2205.11737v1
- Date: Tue, 24 May 2022 03:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-25 12:33:04.675020
- Title: PERT: A New Solution to Pinyin to Character Conversion Task
- Title(参考訳): PERT: 文字変換タスクに対するPinyinの新しいソリューション
- Authors: Jinghui Xiao, Qun Liu, Xin Jiang, Yuanfeng Xiong, Haiteng Wu, Zhe
Zhang
- Abstract要約: Pinyin to Character conversion は、アジア言語向けの商用入力ソフトウェアにおける Input Method Engine (IME) の重要なタスクである。
PERTはTransformersの双方向Pinyin表現の略である。
PERTはベースラインよりもパフォーマンスが大幅に向上する。
- 参考スコア(独自算出の注目度): 26.185506980259536
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pinyin to Character conversion (P2C) task is the key task of Input Method
Engine (IME) in commercial input software for Asian languages, such as Chinese,
Japanese, Thai language and so on. It's usually treated as sequence labelling
task and resolved by language model, i.e. n-gram or RNN. However, the low
capacity of the n-gram or RNN limits its performance. This paper introduces a
new solution named PERT which stands for bidirectional Pinyin Encoder
Representations from Transformers. It achieves significant improvement of
performance over baselines. Furthermore, we combine PERT with n-gram under a
Markov framework, and improve performance further. Lastly, the external lexicon
is incorporated into PERT so as to resolve the OOD issue of IME.
- Abstract(参考訳): pinyin to character conversion (p2c)タスクは、中国語、日本語、タイ語などのアジア言語向けの商用入力ソフトウェアにおいて、ime(input method engine)の重要なタスクである。
通常、シーケンスラベリングタスクとして扱われ、言語モデル、すなわちn-gramやRNNによって解決される。
しかし、n-gramまたはrnnの低容量は性能を制限している。
本稿では,トランスフォーマーによる双方向Pinyinエンコーダ表現のためのPERTという新しいソリューションを提案する。
ベースラインよりもパフォーマンスが大幅に向上します。
さらに PERT と n-gram をMarkov フレームワークで組み合わせることで,パフォーマンスをさらに向上する。
最後に、外部レキシコンをPERTに組み込んでIMEのOOD問題を解決する。
関連論文リスト
- Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである
入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。
我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-03-14T07:58:34Z) - Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。
凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。
しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文 参考訳(メタデータ) (2022-03-01T06:05:07Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z) - BERT-JAM: Boosting BERT-Enhanced Neural Machine Translation with Joint
Attention [9.366359346271567]
本稿では、BERT-JAMと呼ばれる新しいBERT強化ニューラルマシン翻訳モデルを提案する。
BERT-JAMは、エンコーダ/デコーダ層が異なる表現間の注意を動的に割り当てるように、ジョイントアテンションモジュールを使用する。
実験の結果,BERT-JAM は複数の翻訳タスクにおいて SOTA BLEU スコアを達成できた。
論文 参考訳(メタデータ) (2020-11-09T09:30:37Z) - Does Chinese BERT Encode Word Structure? [17.836131968160917]
文脈化された表現は、幅広いNLPタスクに対して大幅に改善された結果を与える。
BERTのような代表モデルによってキャプチャされた特徴を分析するために、多くの作業が費やされている。
本研究では,(1)単語情報がBERTによって取得されること,(2)単語レベルの特徴が主に中間表現層にあること,(3)下流タスクがBERTの単語特徴を異なる用途で利用すること,の2つを用いて中国語のBERTを調査する。
論文 参考訳(メタデータ) (2020-10-15T12:40:56Z) - AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization [13.082435183692393]
AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習型言語モデルを提案する。
英語では、AMBERTは単語の列(きめ細かいトークン)とフレーズの列(粗いトークン)をトークン化後の入力として扱う。
CLUE(英語版)、GLUE(英語版)、SQuAD(英語版)、RACE(英語版)など、中国語と英語のベンチマークデータセットで実験が行われた。
論文 参考訳(メタデータ) (2020-08-27T00:23:48Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。