論文の概要: Multi-Module G2P Converter for Persian Focusing on Relations between
Words
- arxiv url: http://arxiv.org/abs/2208.01371v1
- Date: Tue, 2 Aug 2022 11:33:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-03 13:07:37.768751
- Title: Multi-Module G2P Converter for Persian Focusing on Relations between
Words
- Title(参考訳): 単語間の関係に着目したペルシア語用マルチモジュールg2pコンバータ
- Authors: Mahdi Rezaei, Negar Nayeri, Saeed Farzi, Hossein Sameti
- Abstract要約: 提案するマルチモジュールG2Pシステムは,精度と高速化の観点から,エンド・ツー・エンドのシステムより優れている。
このシステムは単語レベルではなくシーケンスレベルであり、単語間の非記述関係を効果的に捉えることができる。
- 参考スコア(独自算出の注目度): 1.3764085113103217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we investigate the application of end-to-end and multi-module
frameworks for G2P conversion for the Persian language. The results demonstrate
that our proposed multi-module G2P system outperforms our end-to-end systems in
terms of accuracy and speed. The system consists of a pronunciation dictionary
as our look-up table, along with separate models to handle homographs, OOVs and
ezafe in Persian created using GRU and Transformer architectures. The system is
sequence-level rather than word-level, which allows it to effectively capture
the unwritten relations between words (cross-word information) necessary for
homograph disambiguation and ezafe recognition without the need for any
pre-processing. After evaluation, our system achieved a 94.48% word-level
accuracy, outperforming the previous G2P systems for Persian.
- Abstract(参考訳): 本稿では,ペルシア語のG2P変換におけるエンドツーエンドおよびマルチモジュールフレームワークの適用について検討する。
その結果、提案するマルチモジュールG2Pシステムは、精度と速度でエンドツーエンドシステムより優れていることが示された。
システムは、我々のルックアップテーブルとして発音辞書と、GRUとTransformerアーキテクチャを用いて作成されたペルシア語でホモグラフ、OOV、ezafeを扱う別のモデルで構成されている。
このシステムは、単語レベルよりもシーケンスレベルであり、前処理を必要とせずに、ホモグラフの曖昧さやezafe認識に必要な単語(クロスワード情報)の非記述関係を効果的に捉えることができる。
評価の結果, 単語レベルの精度は94.48%であり, ペルシャのG2Pシステムよりも優れていた。
関連論文リスト
- Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。
文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。
ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文 参考訳(メタデータ) (2024-11-12T05:38:43Z) - LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study [2.8948274245812327]
Grapheme-to-phoneme (G2P)変換は音声処理において重要である。
大規模言語モデル(LLM)は、最近、様々な言語タスクにおいて大きな可能性を証明している。
本稿では,ペルシャ語の文レベルの音声課題に対して,G2Pの性能を評価するためのベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-09-13T06:13:55Z) - MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion [1.5020330976600735]
ほとんどの中国語のGrapheme-to-Phoneme(G2P)システムは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、グローバルな文脈に基づいて音素を予測する3段階のフレームワークを使用している。
本稿では,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:15:51Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Diversifying Task-oriented Dialogue Response Generation with Prototype
Guided Paraphrasing [52.71007876803418]
タスク指向対話システム(TDS)における既存の対話応答生成(DRG)方法は、テンプレートベースとコーパスベースという2つのカテゴリに分類される。
我々はP2-Netと呼ばれるプロトタイプベースのパラフレーズニューラルネットワークを提案し、精度と多様性の両面で応答の質を高めることを目的としている。
論文 参考訳(メタデータ) (2020-08-07T22:25:36Z) - Neural Machine Translation for Multilingual Grapheme-to-Phoneme
Conversion [13.543705472805431]
複数の言語で同じエンコーダとデコーダを共有する単一エンドツーエンドのニューラルネットワークG2Pモデルを提案する。
その結果,低リソース言語に対する音素誤り率の平均は7.2%向上し,単言語ベースラインと比較して高いリソースエラー率が得られなかった。
論文 参考訳(メタデータ) (2020-06-25T06:16:29Z) - K{\o}psala: Transition-Based Graph Parsing via Efficient Training and
Effective Encoding [13.490365811869719]
We present Kopsala, the Copenhagen-Uppsala system for the Enhanced Universal Dependencies Shared Task at IWPT 2020。
当社のシステムは,拡張解析以外のすべてを対象として,既製のモデルで構成されたパイプラインであり,後者はCheなどから適応した遷移グラフである。
平均的なELASによると、統一パイプラインはRepresentation ParsingとEnhanced Universal Dependenciesの両方に有効であることを示す。
論文 参考訳(メタデータ) (2020-05-25T13:17:09Z) - The Paradigm Discovery Problem [121.79963594279893]
我々は、パラダイム発見問題を定式化し、システム判定のためのメトリクスを開発する。
5つの多言語に対する経験的結果について報告する。
私たちのコードとデータは公開されています。
論文 参考訳(メタデータ) (2020-05-04T16:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。