論文の概要: Bridging the Gap: An Intermediate Language for Enhanced and Cost-Effective Grapheme-to-Phoneme Conversion with Homographs with Multiple Pronunciations Disambiguation
- arxiv url: http://arxiv.org/abs/2505.06599v1
- Date: Sat, 10 May 2025 11:10:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.935055
- Title: Bridging the Gap: An Intermediate Language for Enhanced and Cost-Effective Grapheme-to-Phoneme Conversion with Homographs with Multiple Pronunciations Disambiguation
- Title(参考訳): ギャップをブリッジする: 複数の発音の曖昧さを持つホログラフを用いた拡張的で費用効果の高いグラフ・ツー・フォネム変換言語
- Authors: Abbas Bertina, Shahab Beirami, Hossein Biniazian, Elham Esmaeilnia, Soheil Shahi, Mahdi Pirnia,
- Abstract要約: 本稿ではペルシャ語処理に特化して設計された中間言語を紹介する。
提案手法は,Large Language Model (LLM) のプロンプト技術と,特殊なシーケンス・ツー・シーケンス・マシン・トランスリテラルアーキテクチャの2つの重要なコンポーネントを組み合わせたものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grapheme-to-phoneme (G2P) conversion for Persian presents unique challenges due to its complex phonological features, particularly homographs and Ezafe, which exist in formal and informal language contexts. This paper introduces an intermediate language specifically designed for Persian language processing that addresses these challenges through a multi-faceted approach. Our methodology combines two key components: Large Language Model (LLM) prompting techniques and a specialized sequence-to-sequence machine transliteration architecture. We developed and implemented a systematic approach for constructing a comprehensive lexical database for homographs with multiple pronunciations disambiguation often termed polyphones, utilizing formal concept analysis for semantic differentiation. We train our model using two distinct datasets: the LLM-generated dataset for formal and informal Persian and the B-Plus podcasts for informal language variants. The experimental results demonstrate superior performance compared to existing state-of-the-art approaches, particularly in handling the complexities of Persian phoneme conversion. Our model significantly improves Phoneme Error Rate (PER) metrics, establishing a new benchmark for Persian G2P conversion accuracy. This work contributes to the growing research in low-resource language processing and provides a robust solution for Persian text-to-speech systems and demonstrating its applicability beyond Persian. Specifically, the approach can extend to languages with rich homographic phenomena such as Chinese and Arabic
- Abstract(参考訳): ペルシア語のGrapheme-to-phoneme (G2P)変換は、その複雑な音韻論的特徴、特に形式的および非公式な言語文脈に存在するホモグラフやエザフによって、固有の課題を提示する。
本稿では,ペルシャ語処理に特化して設計された中間言語を紹介する。
提案手法は,Large Language Model (LLM) のプロンプト技術と,特殊なシーケンス・ツー・シーケンス・マシン・トランスリテラルアーキテクチャの2つの重要なコンポーネントを組み合わせたものである。
我々は,複数の発音の曖昧さを多音節と呼ぶホモグラフの包括的語彙データベース構築のための体系的アプローチを開発し,意味的区別のための形式的概念分析を応用した。
フォーマルなペルシャ語と非公式なペルシャ語のLLM生成データセットと、非公式な言語変種のためのB-Plusポッドキャストの2つの異なるデータセットを使用してモデルをトレーニングする。
実験結果から,ペルシャ音素変換の複雑度に対処する上で,既存の最先端手法と比較して優れた性能を示した。
我々のモデルは音素誤り率(PER)の指標を大幅に改善し、ペルシア語G2P変換精度の新たなベンチマークを確立した。
この研究は、低リソースの言語処理の研究の増加に貢献し、ペルシア語による音声合成システムに対する堅牢なソリューションを提供し、ペルシア語以外の適用性を示している。
特に、このアプローチは中国語やアラビア語のような豊かなホモグラフィー現象を持つ言語に拡張することができる。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - A two-stage transliteration approach to improve performance of a multilingual ASR [1.9511556030544333]
本稿では,言語に依存しないエンドツーエンドモデルを構築するためのアプローチを提案する。
我々は2つのIndic言語に対するエンドツーエンドの多言語音声認識システムを用いて実験を行った。
論文 参考訳(メタデータ) (2024-10-09T05:30:33Z) - FarSSiBERT: A Novel Transformer-based Model for Semantic Similarity Measurement of Persian Social Networks Informal Texts [0.0]
本稿では,ソーシャルメディアからペルシャの非公式短文間の意味的類似性を測定するための,トランスフォーマーに基づく新しいモデルを提案する。
これは、約9900万のペルシア語の非公式な短文をソーシャルネットワークから事前訓練しており、ペルシア語の一種である。
提案手法はPearsonとSpearmanの係数基準でParsBERT, laBSE, multilingual BERTより優れていた。
論文 参考訳(メタデータ) (2024-07-27T05:04:49Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Good Neighbors Are All You Need for Chinese Grapheme-to-Phoneme
Conversion [1.5020330976600735]
ほとんどの中国語のGrapheme-to-Phoneme(G2P)システムは、入力シーケンスをまず文字埋め込みに変換し、言語モデルを用いて言語情報を取得し、グローバルな文脈に基づいて音素を予測する3段階のフレームワークを使用している。
本稿では,言語モデルに強い帰納バイアスを与えるReinforcerを提案する。
論文 参考訳(メタデータ) (2023-03-14T09:15:51Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Back-Translation-Style Data Augmentation for Mandarin Chinese Polyphone
Disambiguation [35.35236347070773]
ポリフォニック文字の発音を予測するためのG2Pモデルと、テキストの発音を予測するPhoneme-to-Grapheme(P2G)モデルを構築した。
我々は,不均衡分布やデータ不足を伴うトレーニングセットにおいて,典型的なポリフォニック文字の精度を向上させるために,データバランス戦略を設計する。
論文 参考訳(メタデータ) (2022-11-17T12:37:41Z) - Multi-Module G2P Converter for Persian Focusing on Relations between
Words [1.3764085113103217]
提案するマルチモジュールG2Pシステムは,精度と高速化の観点から,エンド・ツー・エンドのシステムより優れている。
このシステムは単語レベルではなくシーケンスレベルであり、単語間の非記述関係を効果的に捉えることができる。
論文 参考訳(メタデータ) (2022-08-02T11:33:48Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。