Fugu-MT 論文翻訳(概要): PERT: A New Solution to Pinyin to Character Conversion Task

論文の概要: PERT: A New Solution to Pinyin to Character Conversion Task

arxiv url: http://arxiv.org/abs/2205.11737v1
Date: Tue, 24 May 2022 03:08:27 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-25 12:33:04.675020
Title: PERT: A New Solution to Pinyin to Character Conversion Task
Title（参考訳）: PERT: 文字変換タスクに対するPinyinの新しいソリューション
Authors: Jinghui Xiao, Qun Liu, Xin Jiang, Yuanfeng Xiong, Haiteng Wu, Zhe Zhang
Abstract要約: Pinyin to Character conversion は、アジア言語向けの商用入力ソフトウェアにおける Input Method Engine (IME) の重要なタスクである。 PERTはTransformersの双方向Pinyin表現の略である。 PERTはベースラインよりもパフォーマンスが大幅に向上する。
参考スコア（独自算出の注目度）: 26.185506980259536
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pinyin to Character conversion (P2C) task is the key task of Input Method Engine (IME) in commercial input software for Asian languages, such as Chinese, Japanese, Thai language and so on. It's usually treated as sequence labelling task and resolved by language model, i.e. n-gram or RNN. However, the low capacity of the n-gram or RNN limits its performance. This paper introduces a new solution named PERT which stands for bidirectional Pinyin Encoder Representations from Transformers. It achieves significant improvement of performance over baselines. Furthermore, we combine PERT with n-gram under a Markov framework, and improve performance further. Lastly, the external lexicon is incorporated into PERT so as to resolve the OOD issue of IME.
Abstract（参考訳）: pinyin to character conversion (p2c)タスクは、中国語、日本語、タイ語などのアジア言語向けの商用入力ソフトウェアにおいて、ime(input method engine)の重要なタスクである。通常、シーケンスラベリングタスクとして扱われ、言語モデル、すなわちn-gramやRNNによって解決される。しかし、n-gramまたはrnnの低容量は性能を制限している。本稿では,トランスフォーマーによる双方向Pinyinエンコーダ表現のためのPERTという新しいソリューションを提案する。ベースラインよりもパフォーマンスが大幅に向上します。さらに PERT と n-gram をMarkov フレームワークで組み合わせることで,パフォーマンスをさらに向上する。最後に、外部レキシコンをPERTに組み込んでIMEのOOD問題を解決する。

関連論文リスト

CNMBert: A Model For Hanyu Pinyin Abbreviation to Character Conversion Task [1.6190746208019737]
漢友ピニイン略語を漢字に変換するという課題は、中国語スペルリング・コレクション(CSC)の領域において重要な分岐点である。本稿では,この問題に対する解決策として,zh-CN Pinyin Multi-mask Bert Modelの略であるCNMBertを提案する。 CNMBertは数発のGPTモデルを超え、10,424サンプルのHanyu Pinyin短縮テストデータセットで59.63%のMRRを達成した。
論文参考訳（メタデータ） (2024-11-18T17:50:34Z)
Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。 Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2024-09-20T06:50:56Z)
PERT: Pre-training BERT with Permuted Language Model [24.92527883997854]
PERT は Permuted Language Model (PerLM) で訓練された BERT のような自動エンコーディングモデルである入力テキストのパーセンテージをパーミュレートし、トレーニングの目的は、元のトークンの位置を予測することである。我々は中国語と英語のNLUベンチマークについて広範な実験を行った。
論文参考訳（メタデータ） (2022-03-14T07:58:34Z)
Exploring and Adapting Chinese GPT to Pinyin Input Method [48.15790080309427]
我々は,中国GPTをピンイン入力に活用する最初の探索を行っている。凍結したGPTは、完璧なピニイン上で最先端のパフォーマンスを達成する。しかし、入力に短縮ピンインが含まれていると、性能が劇的に低下する。
論文参考訳（メタデータ） (2022-03-01T06:05:07Z)
Improving Mandarin End-to-End Speech Recognition with Word N-gram Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文参考訳（メタデータ） (2022-01-06T10:04:56Z)
Non-autoregressive Mandarin-English Code-switching Speech Recognition with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文参考訳（メタデータ） (2021-04-06T03:01:09Z)
Does Chinese BERT Encode Word Structure? [17.836131968160917]
文脈化された表現は、幅広いNLPタスクに対して大幅に改善された結果を与える。 BERTのような代表モデルによってキャプチャされた特徴を分析するために、多くの作業が費やされている。本研究では,(1)単語情報がBERTによって取得されること,(2)単語レベルの特徴が主に中間表現層にあること,(3)下流タスクがBERTの単語特徴を異なる用途で利用すること,の2つを用いて中国語のBERTを調査する。
論文参考訳（メタデータ） (2020-10-15T12:40:56Z)
AMBERT: A Pre-trained Language Model with Multi-Grained Tokenization [13.082435183692393]
AMBERT(A Multi-fine BERT)と呼ばれる新しい事前学習型言語モデルを提案する。英語では、AMBERTは単語の列(きめ細かいトークン)とフレーズの列(粗いトークン)をトークン化後の入力として扱う。 CLUE(英語版)、GLUE(英語版)、SQuAD(英語版)、RACE(英語版)など、中国語と英語のベンチマークデータセットで実験が行われた。
論文参考訳（メタデータ） (2020-08-27T00:23:48Z)
2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文参考訳（メタデータ） (2020-05-07T10:53:05Z)
Sign Language Transformers: Joint End-to-end Sign Language Recognition and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。 RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文参考訳（メタデータ） (2020-03-30T21:35:09Z)
Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文参考訳（メタデータ） (2020-02-17T08:13:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。