論文の概要: OLaPh: Optimal Language Phonemizer
- arxiv url: http://arxiv.org/abs/2509.20086v1
- Date: Wed, 24 Sep 2025 13:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.815357
- Title: OLaPh: Optimal Language Phonemizer
- Title(参考訳): OLaPh: 最適な言語電話機
- Authors: Johannes Wirth,
- Abstract要約: この研究は、大きなレキシカ、複数のNLP技術、複合分解能と確率的スコアリング関数を組み合わせたフレームワークであるOLaPhを提示する。
ドイツ語と英語の評価では、挑戦的なデータセットを含む以前のアプローチよりも精度が向上している。
未解決事例にさらに対処するため、我々はOLaPh生成データ上に大規模な言語モデルを訓練し、より強力な一般化と性能を実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Phonemization, the conversion of text into phonemes, is a key step in text-to-speech. Traditional approaches use rule-based transformations and lexicon lookups, while more advanced methods apply preprocessing techniques or neural networks for improved accuracy on out-of-domain vocabulary. However, all systems struggle with names, loanwords, abbreviations, and homographs. This work presents OLaPh (Optimal Language Phonemizer), a framework that combines large lexica, multiple NLP techniques, and compound resolution with a probabilistic scoring function. Evaluations in German and English show improved accuracy over previous approaches, including on a challenging dataset. To further address unresolved cases, we train a large language model on OLaPh-generated data, which achieves even stronger generalization and performance. Together, the framework and LLM improve phonemization consistency and provide a freely available resource for future research.
- Abstract(参考訳): テキストを音素に変換する音素化は、テキストから音声への変換において重要なステップである。
従来のアプローチでは、ルールベースの変換と辞書のルックアップを使用し、より高度な手法では、ドメイン外語彙の精度を改善するために前処理技術やニューラルネットワークを適用している。
しかし、全てのシステムは名前、借用語、略語、ホモグラフに苦しむ。
OLaPh(Optimal Language Phonemizer)は、大きな語彙、複数のNLP技術、複合分解能を確率的スコアリング関数と組み合わせたフレームワークである。
ドイツ語と英語の評価では、挑戦的なデータセットを含む以前のアプローチよりも精度が向上している。
未解決事例にさらに対処するため、我々はOLaPh生成データ上に大規模な言語モデルを訓練し、より強力な一般化と性能を実現する。
フレームワークとLLMは共に音素化の整合性を改善し、将来の研究のために自由に利用できるリソースを提供する。
関連論文リスト
- Bridging the Gap: An Intermediate Language for Enhanced and Cost-Effective Grapheme-to-Phoneme Conversion with Homographs with Multiple Pronunciations Disambiguation [0.0]
本稿ではペルシャ語処理に特化して設計された中間言語を紹介する。
提案手法は,Large Language Model (LLM) のプロンプト技術と,特殊なシーケンス・ツー・シーケンス・マシン・トランスリテラルアーキテクチャの2つの重要なコンポーネントを組み合わせたものである。
論文 参考訳(メタデータ) (2025-05-10T11:10:48Z) - From Babble to Words: Pre-Training Language Models on Continuous Streams of Phonemes [6.726629754291751]
テキストデータセットを連続的な音素ストリームに変換するパイプラインを開発した。
このパイプラインをBabyLMチャレンジから100万ワードの事前トレーニングデータセットに適用する。
この結果から,音素ベースの学習は従来の言語理解タスクの性能をわずかに低下させるが,分析的・実践的メリットは有益であることがわかった。
論文 参考訳(メタデータ) (2024-10-30T11:05:01Z) - Enhancing Text Generation in Joint NLG/NLU Learning Through Curriculum Learning, Semi-Supervised Training, and Advanced Optimization Techniques [0.0]
本研究では,NLG(Natural Language Generation)とNLU(Natural Language Understanding)の併用によってテキスト生成を改善する手法を開発した。
データは、クリーニング、トークン化、ストーミング、ストップワード削除など、注釈付きデータセットの収集と前処理によって作成される。
トランスフォーマーベースのエンコーダとデコーダ、長距離依存関係のキャプチャ、ソースターゲットシーケンスモデリングの改善。
政策勾配手法による強化学習、半教師付きトレーニング、注意機構の改善、および異なる近似を用いて、モデルを微調整し、複雑な言語タスクを効果的に処理する。
論文 参考訳(メタデータ) (2024-10-17T12:43:49Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。