論文の概要: LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme
conversion
- arxiv url: http://arxiv.org/abs/2303.01086v1
- Date: Thu, 2 Mar 2023 09:16:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-03 15:14:34.160489
- Title: LiteG2P: A fast, light and high accuracy model for grapheme-to-phoneme
conversion
- Title(参考訳): LiteG2P:Grapheme-to-phoneme変換のための高速・軽量・高精度モデル
- Authors: Chunfeng Wang, Peisong Huang, Yuxiang Zou, Haoyu Zhang, Shichao Liu,
Xiang Yin, Zejun Ma
- Abstract要約: Grapheme-to-phoneme (G2P) は文字を対応する発音に変換する役割を担っている。
既存のメソッドはパフォーマンスが遅いか悪いかのいずれかで、アプリケーションのシナリオに制限がある。
本稿では,高速で軽量で理論的に並列なLiteG2Pを提案する。
- 参考スコア(独自算出の注目度): 18.83348872103488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a key component of automated speech recognition (ASR) and the front-end in
text-to-speech (TTS), grapheme-to-phoneme (G2P) plays the role of converting
letters to their corresponding pronunciations. Existing methods are either slow
or poor in performance, and are limited in application scenarios, particularly
in the process of on-device inference. In this paper, we integrate the
advantages of both expert knowledge and connectionist temporal classification
(CTC) based neural network and propose a novel method named LiteG2P which is
fast, light and theoretically parallel. With the carefully leading design,
LiteG2P can be applied both on cloud and on device. Experimental results on the
CMU dataset show that the performance of the proposed method is superior to the
state-of-the-art CTC based method with 10 times fewer parameters, and even
comparable to the state-of-the-art Transformer-based sequence-to-sequence model
with less parameters and 33 times less computation.
- Abstract(参考訳): 音声認識(ASR)とテキスト音声(TTS)のフロントエンドのキーコンポーネントとして、G2P(Grapheme-to-phoneme)が文字を対応する発音に変換する役割を担っている。
既存のメソッドはパフォーマンスが遅いか悪いかのいずれかで、アプリケーションシナリオ、特にオンデバイス推論のプロセスでは制限されている。
本稿では,専門家知識とコネクショニスト時間分類(ctc)に基づくニューラルネットワークの利点を統合し,高速で軽量で理論的に並列なliteg2pと呼ばれる新しい手法を提案する。
慎重に設計することで、LiteG2Pはクラウドとデバイスの両方に適用できる。
CMUデータセットを用いた実験結果から,提案手法の性能は10倍のパラメータを持つ最先端のCTC法よりも優れており,さらにパラメータが少なく,33倍の計算量を有する最先端のTransformerベースのシーケンス・ツー・シーケンスモデルと同等であることがわかった。
関連論文リスト
- Extreme Compression of Large Language Models via Additive Quantization [59.3122859349777]
我々のアルゴリズムは、AQLMと呼ばれ、情報検索のための古典的な加算量子化(AQ)アプローチを一般化する。
トークン生成のためのAQLMの高速GPUおよびCPU実装を提供しており、最適化されたFP16実装を高速にマッチングまたは性能良くすることができる。
論文 参考訳(メタデータ) (2024-01-11T18:54:44Z) - Bit Cipher -- A Simple yet Powerful Word Representation System that
Integrates Efficiently with Language Models [4.807347156077897]
Bit-cipherは、バックプロパゲーションや超高効率次元減少技術の必要性を排除したワード表現システムである。
我々は、古典的な埋め込みによるビット暗号の競合性を評価するために、POSタグと名前付きエンティティ認識(NER)の探索実験を行った。
埋め込み層を暗号埋め込みに置き換えることで、トレーニングプロセスの高速化と最適な最適化を実現する上での暗号の顕著な効率を実証した。
論文 参考訳(メタデータ) (2023-11-18T08:47:35Z) - Decoder Tuning: Efficient Language Understanding as Decoding [84.68266271483022]
本稿では,タスク固有のデコーダネットワークを出力側で最適化するデコーダチューニング(DecT)を提案する。
勾配ベースの最適化により、DecTは数秒以内にトレーニングでき、サンプル毎に1つのPクエリしか必要としない。
我々は、広範囲にわたる自然言語理解実験を行い、DecTが200ドル以上のスピードアップで最先端のアルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-12-16T11:15:39Z) - UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units [64.61596752343837]
本稿では,まずテキスト表現を生成し,離散音響単位を予測する2パス直接S2STアーキテクチャであるUnitYを提案する。
第1パスデコーダのサブワード予測によりモデル性能を向上させる。
提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。
論文 参考訳(メタデータ) (2022-12-15T18:58:28Z) - Incremental Online Learning Algorithms Comparison for Gesture and Visual
Smart Sensors [68.8204255655161]
本稿では,加速度センサデータに基づくジェスチャー認識と画像分類の2つの実例として,最先端の4つのアルゴリズムを比較した。
以上の結果から,これらのシステムの信頼性と小型メモリMCUへのデプロイの可能性が確認された。
論文 参考訳(メタデータ) (2022-09-01T17:05:20Z) - Streaming on-device detection of device directed speech from voice and
touch-based invocation [12.42440115067583]
デバイス上での音声検出のための音響的偽トリガー除去(FTM)手法を提案する。
デバイス上でのモデル展開を容易にするため,時間的畳み込みネットワーク(TCN)の概念を用いた新たなストリーミング決定層を導入する。
我々の知る限りでは、これはストリーミング方式で複数の呼び出しタイプからデバイス指向の音声を検出する最初のアプローチである。
論文 参考訳(メタデータ) (2021-10-09T22:33:42Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - Speech Command Recognition in Computationally Constrained Environments
with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。
この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。
このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-11-23T14:40:18Z) - Boosting Continuous Sign Language Recognition via Cross Modality
Augmentation [135.30357113518127]
連続手話認識は不整合のビデオテキストペアを扱う。
クロスモーダル拡張を用いた新しいアーキテクチャを提案する。
提案するフレームワークは、既存のCTCベースの連続SLRアーキテクチャに容易に拡張できる。
論文 参考訳(メタデータ) (2020-10-11T15:07:50Z) - Transformer based Grapheme-to-Phoneme Conversion [0.9023847175654603]
本稿では,G2P変換へのトランスアーキテクチャの適用について検討する。
我々は、その性能を、繰り返しおよび畳み込みニューラルネットワークに基づくアプローチと比較する。
その結果, 変圧器をベースとしたG2Pは, 単語誤り率の点で, 畳み込みに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-04-14T07:48:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。