論文の概要: LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
- arxiv url: http://arxiv.org/abs/2409.08554v1
- Date: Fri, 13 Sep 2024 06:13:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:38:30.964810
- Title: LLM-Powered Grapheme-to-Phoneme Conversion: Benchmark and Case Study
- Title(参考訳): LLMを用いたGrapheme-to-Phoneme変換のベンチマークとケーススタディ
- Authors: Mahta Fetrat Qharabagh, Zahra Dehghanian, Hamid R. Rabiee,
- Abstract要約: Grapheme-to-phoneme (G2P)変換は音声処理において重要である。
大規模言語モデル(LLM)は、最近、様々な言語タスクにおいて大きな可能性を証明している。
本稿では,ペルシャ語の文レベルの音声課題に対して,G2Pの性能を評価するためのベンチマークデータセットを提案する。
- 参考スコア(独自算出の注目度): 2.8948274245812327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Grapheme-to-phoneme (G2P) conversion is critical in speech processing, particularly for applications like speech synthesis. G2P systems must possess linguistic understanding and contextual awareness of languages with polyphone words and context-dependent phonemes. Large language models (LLMs) have recently demonstrated significant potential in various language tasks, suggesting that their phonetic knowledge could be leveraged for G2P. In this paper, we evaluate the performance of LLMs in G2P conversion and introduce prompting and post-processing methods that enhance LLM outputs without additional training or labeled data. We also present a benchmarking dataset designed to assess G2P performance on sentence-level phonetic challenges of the Persian language. Our results show that by applying the proposed methods, LLMs can outperform traditional G2P tools, even in an underrepresented language like Persian, highlighting the potential of developing LLM-aided G2P systems.
- Abstract(参考訳): Grapheme-to-phoneme (G2P)変換は、特に音声合成のようなアプリケーションにおいて、音声処理において重要である。
G2Pシステムは、多音語と文脈に依存した音素を持つ言語の言語的理解と文脈的認識を有する必要がある。
大規模言語モデル(LLM)は、近年、様々な言語タスクにおいて大きな可能性を示しており、G2Pにその音声的知識を活用できることが示唆されている。
本稿では、G2P変換におけるLCMの性能を評価し、追加のトレーニングやラベル付きデータなしでLCM出力を向上させるプロンプトおよび後処理手法を提案する。
また,ペルシア語の文レベルの音声課題に対して,G2Pの性能を評価するためのベンチマークデータセットを提案する。
提案手法を応用することにより,ペルシャ語のような表現不足言語においても従来のG2Pツールよりも優れた性能を発揮することを示し,LLM支援G2Pシステムの開発の可能性を強調した。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。
文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。
ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文 参考訳(メタデータ) (2024-11-12T05:38:43Z) - PhonologyBench: Evaluating Phonological Skills of Large Language Models [57.80997670335227]
音声学は、音声の構造と発音規則の研究であり、Large Language Model (LLM) 研究において批判的であるが、しばしば見落とされがちな要素である。
LLMの音韻的スキルを明示的にテストするための3つの診断タスクからなる新しいベンチマークであるPhonologyBenchを提案する。
我々は,Rhyme Word GenerationとSyllable countingにおいて,人間と比較した場合,それぞれ17%と45%の有意なギャップを観察した。
論文 参考訳(メタデータ) (2024-04-03T04:53:14Z) - Toward Informal Language Processing: Knowledge of Slang in Large Language Models [16.42982896928428]
我々は,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築した。
評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。
GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。
論文 参考訳(メタデータ) (2024-04-02T21:50:18Z) - Native Language Identification with Large Language Models [60.80452362519818]
我々はGPTモデルがNLI分類に熟練していることを示し、GPT-4は0ショット設定でベンチマーク11テストセットで91.7%の新たなパフォーマンス記録を樹立した。
また、従来の完全教師付き設定とは異なり、LLMは既知のクラスに制限されずにNLIを実行できることを示す。
論文 参考訳(メタデータ) (2023-12-13T00:52:15Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Improving grapheme-to-phoneme conversion by learning pronunciations from
speech recordings [12.669655363646257]
Grapheme-to-Phoneme(G2P)タスクは、正書法入力を離散的な音声表現に変換することを目的としている。
音声録音から発音例を学習し,G2P変換課題を改善する手法を提案する。
論文 参考訳(メタデータ) (2023-07-31T13:25:38Z) - Document-Level Machine Translation with Large Language Models [91.03359121149595]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクに対して、一貫性、凝集性、関連性、流動性のある回答を生成することができる。
本稿では,LLMの談話モデルにおける能力について詳細に評価する。
論文 参考訳(メタデータ) (2023-04-05T03:49:06Z) - r-G2P: Evaluating and Enhancing Robustness of Grapheme to Phoneme
Conversion by Controlled noise introducing and Contextual information
incorporation [32.75866643254402]
ニューラルG2Pモデルはスペルミスのようなグラフエムの正書法の変化に対して極めて敏感であることを示す。
雑音の多い学習データを合成するための3つの制御ノイズ導入法を提案する。
文脈情報をベースラインに組み込んで,トレーニングプロセスの安定化のための堅牢なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-02-21T13:29:30Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。