論文の概要: PolyNorm: Few-Shot LLM-Based Text Normalization for Text-to-Speech
- arxiv url: http://arxiv.org/abs/2511.03080v1
- Date: Wed, 05 Nov 2025 00:06:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.275286
- Title: PolyNorm: Few-Shot LLM-Based Text Normalization for Text-to-Speech
- Title(参考訳): PolyNorm:LLMによるテキスト音声のテキスト正規化
- Authors: Michel Wong, Ali Alshehri, Sophia Kao, Haotian He,
- Abstract要約: テキスト正規化(TN)は、テキスト音声合成(TTS)システムにおいて重要な前処理ステップである。
大規模言語モデル(LLM)を用いたTNへのプロンプトベースのアプローチであるPolyNormを提案する。
本稿では,多言語にわたるスケーラブルな実験を容易にするために,自動データキュレーションと評価のための言語に依存しないパイプラインを提案する。
- 参考スコア(独自算出の注目度): 1.9288174612754012
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text Normalization (TN) is a key preprocessing step in Text-to-Speech (TTS) systems, converting written forms into their canonical spoken equivalents. Traditional TN systems can exhibit high accuracy, but involve substantial engineering effort, are difficult to scale, and pose challenges to language coverage, particularly in low-resource settings. We propose PolyNorm, a prompt-based approach to TN using Large Language Models (LLMs), aiming to reduce the reliance on manually crafted rules and enable broader linguistic applicability with minimal human intervention. Additionally, we present a language-agnostic pipeline for automatic data curation and evaluation, designed to facilitate scalable experimentation across diverse languages. Experiments across eight languages show consistent reductions in the word error rate (WER) compared to a production-grade-based system. To support further research, we release PolyNorm-Benchmark, a multilingual data set covering a diverse range of text normalization phenomena.
- Abstract(参考訳): テキスト正規化(TN)は、テキストから音声への変換(TTS)システムにおいて重要な前処理ステップである。
従来のTNシステムは高い精度を示すことができるが、相当なエンジニアリング努力を伴い、拡張が困難であり、特に低リソース環境では言語カバレッジに課題を提起する。
本稿では,Large Language Models (LLMs) を用いたTNのプロンプトベースアプローチであるPolyNormを提案する。
さらに,多様な言語を対象としたスケーラブルな実験を容易にするために,自動データキュレーションと評価のための言語に依存しないパイプラインを提案する。
8言語にわたる実験では、製品グレードベースのシステムと比較して単語誤り率(WER)が一貫した低下を示した。
さらなる研究を支援するために,さまざまなテキスト正規化現象をカバーする多言語データセットであるPolyNorm-Benchmarkをリリースする。
関連論文リスト
- SFMS-ALR: Script-First Multilingual Speech Synthesis with Adaptive Locale Resolution [0.0]
文内多言語音声合成 (code-switching TTS) は、急激な言語シフト、様々なスクリプト、言語間の不一致の韻律による大きな課題である。
本稿では,適応的局所分解を用いたスクリプトファースト多言語合成(SFMS-ALR)を提案する。
論文 参考訳(メタデータ) (2025-10-27T21:39:07Z) - SONAR-SLT: Multilingual Sign Language Translation via Language-Agnostic Sentence Embedding Supervision [14.416218321809824]
手話翻訳(SLT)は通常、単一の言語でテキストで訓練される。
我々は、SLTを監督するために、複数の言語からテキストや音声で訓練された言語に依存しないマルチモーダル埋め込みを採用している。
以上の結果から,言語非依存の埋め込み管理と統合拡張が組み合わさって,従来のSLTトレーニングに代わるスケーラブルでセマンティックな代替手段を提供することが示された。
論文 参考訳(メタデータ) (2025-10-22T09:17:31Z) - Evaluation of NMT-Assisted Grammar Transfer for a Multi-Language Configurable Data-to-Text System [0.04947896909360667]
多言語データ・テキスト生成のアプローチの1つは、ソース言語から各ターゲット言語に文法的な構成を前もって翻訳することである。
本稿では,ニューラルネットワーク翻訳(NMT)と1回の人間レビューを組み合わせたルールベースNLGの実装について述べる。
SportSett:Basketball データセットの評価から,我々の NLG システムは,翻訳作業における文法的正しさを基盤として,良好に動作していることが分かる。
論文 参考訳(メタデータ) (2025-01-27T15:25:26Z) - Zero-shot Cross-lingual Transfer of Prompt-based Tuning with a Unified
Multilingual Prompt [98.26682501616024]
我々はUniPromptと呼ばれるすべての言語に対して統一的なプロンプトを使用する新しいモデルを提案する。
統一的なプロンプトは多言語 PLM による計算であり、言語に依存しない表現を生成する。
提案手法は、異なる言語間で強いベースラインを著しく上回ることができる。
論文 参考訳(メタデータ) (2022-02-23T11:57:52Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Evaluating the Morphosyntactic Well-formedness of Generated Texts [88.20502652494521]
L'AMBRE – テキストのモルフォシンタク的整形性を評価する指標を提案する。
形態的に豊かな言語に翻訳するシステムのダイアクロニックスタディを通じて,機械翻訳作業におけるメトリックの有効性を示す。
論文 参考訳(メタデータ) (2021-03-30T18:02:58Z) - SML: a new Semantic Embedding Alignment Transformer for efficient
cross-lingual Natural Language Inference [71.57324258813674]
トランスフォーマーが質問応答、自然言語推論(NLI)、要約といった様々なタスクを精度良く実行できることは、現在この種のタスクに対処するための最良のパラダイムの1つとしてランク付けすることができる。
nliは、複雑な文を理解するための知識が必要であり、仮説と前提の関係を確立するため、これらのアーキテクチャをテストする最良のシナリオの1つである。
本稿では,自然言語推論のための多言語組込みを効率的にアライメントするための新しいアーキテクチャ siamese multilingual transformer を提案する。
論文 参考訳(メタデータ) (2021-03-17T13:23:53Z) - Neural Inverse Text Normalization [11.240669509034298]
逆テキスト正規化のための効率的かつ堅牢なニューラルソリューションを提案する。
言語の専門家が手作業でカリキュラムを作成する必要なく、他の言語に簡単に拡張できることが示される。
プリトレーニングと融合したトランスベースモデルは、複数のデータセットで一貫して低いwerを達成する。
論文 参考訳(メタデータ) (2021-02-12T07:53:53Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Few-shot Natural Language Generation for Task-Oriented Dialog [113.07438787659859]
FewShotWozは,タスク指向対話システムにおける数ショットの学習設定をシミュレートする最初の NLG ベンチマークである。
我々は, SC-GPTモデルを開発し, その制御可能な生成能力を得るために, 注釈付きNLGコーパスの大規模なセットで事前学習を行った。
FewShotWozとMulti-Domain-WOZデータセットの実験は、提案したSC-GPTが既存の手法を大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-02-27T18:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。