論文の概要: Phonikud: Hebrew Grapheme-to-Phoneme Conversion for Real-Time Text-to-Speech
- arxiv url: http://arxiv.org/abs/2506.12311v1
- Date: Sat, 14 Jun 2025 02:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.790751
- Title: Phonikud: Hebrew Grapheme-to-Phoneme Conversion for Real-Time Text-to-Speech
- Title(参考訳): Phonikud:Hubrew Grapheme-to-Phoneme Conversion for Real-Time Text-to-Speech
- Authors: Yakov Kolani, Maxim Melichov, Cobi Calev, Morris Alper,
- Abstract要約: Phonikudは、完全に特定されたIPA転写を出力する軽量でオープンソースのHebrew grapheme-to-phoneme(G2P)システムである。
我々は、転写されたヘブライ語音声のILSpeechデータセットにIPAアノテーションを付与し、ヘブライ語G2PのベンチマークやTSシステムのトレーニングデータとして機能する。
- 参考スコア(独自算出の注目度): 1.3124513975412255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time text-to-speech (TTS) for Modern Hebrew is challenging due to the language's orthographic complexity. Existing solutions ignore crucial phonetic features such as stress that remain underspecified even when vowel marks are added. To address these limitations, we introduce Phonikud, a lightweight, open-source Hebrew grapheme-to-phoneme (G2P) system that outputs fully-specified IPA transcriptions. Our approach adapts an existing diacritization model with lightweight adaptors, incurring negligible additional latency. We also contribute the ILSpeech dataset of transcribed Hebrew speech with IPA annotations, serving as a benchmark for Hebrew G2P and as training data for TTS systems. Our results demonstrate that Phonikud G2P conversion more accurately predicts phonemes from Hebrew text compared to prior methods, and that this enables training of effective real-time Hebrew TTS models with superior speed-accuracy trade-offs. We release our code, data, and models at https://phonikud.github.io.
- Abstract(参考訳): 現代ヘブライ語のためのリアルタイムテキスト音声 (TTS) は、言語の正書法的な複雑さのために困難である。
既存のソリューションは、母音マークが加えられた場合でも、過小評価されていないストレスのような重要な音声特徴を無視している。
これらの制約に対処するため、我々は、完全に特定されたIPA転写を出力する軽量でオープンソースのHebrew grapheme-to-phoneme (G2P)システムであるPhonikudを紹介した。
当社のアプローチでは,従来のダイアクリティカル化モデルに軽量適応モデルを適用し,無視できない追加遅延を発生させる。
また、転写されたヘブライ語音声のILSpeechデータセットにIPAアノテーションを付与し、ヘブライ語G2PのベンチマークやTSシステムのトレーニングデータとして機能する。
以上の結果から,Phonikud G2P変換は,従来の手法に比べてヘブライ語の音素をより正確に予測し,高速なトレードオフを持つ実時間ヘブライTTSモデルの訓練を可能にすることが示された。
コード、データ、モデルをhttps://phonikud.github.io.comでリリースしています。
関連論文リスト
- LLM-based phoneme-to-grapheme for phoneme-based speech recognition [11.552927239284582]
音素自動音声認識(ASR)のための音素間符号化(LLM-P2G)を提案する。
実験の結果, LLM-P2G はポーランド語とドイツ語の交叉型 ASR において, WER の相対減少率 3.6% と 6.9% でWFST 系よりも優れていた。
論文 参考訳(メタデータ) (2025-06-05T07:35:55Z) - A Language Modeling Approach to Diacritic-Free Hebrew TTS [21.51896995655732]
我々はヘブライ語におけるテキスト音声(TTS)の課題に取り組む。
伝統的なヘブライ語には、個人が与えられた言葉を発音する方法を規定するダイアクリティカル語が含まれている。
現代ヘブライ語におけるダイアクリティカルな発音の欠如は、読者が正しい発音を結論付けることを期待する結果となった。
論文 参考訳(メタデータ) (2024-07-16T22:43:49Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - Few-Shot Cross-Lingual TTS Using Transferable Phoneme Embedding [55.989376102986654]
本稿では,言語間テキスト-音声間問題に対処するための移動可能な音素埋め込みフレームワークについて,数ショット設定で検討する。
本稿では,音素ベースのTSモデルと,異なる言語からの音素を学習潜在空間に投影するコードブックモジュールからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-27T11:24:40Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - AlephBERT:A Hebrew Large Pre-Trained Language Model to Start-off your
Hebrew NLP Application With [7.345047237652976]
大規模プリトレーニング言語モデル(PLM)は、言語理解技術の発展においてユビキタスになっています。
PLMを用いた英語の進歩は前例がないが、ヘブライ語でのPLMの使用の進展は少ない。
論文 参考訳(メタデータ) (2021-04-08T20:51:29Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。