論文の概要: CosyAccent: Duration-Controllable Accent Normalization Using Source-Synthesis Training Data
- arxiv url: http://arxiv.org/abs/2602.19166v1
- Date: Sun, 22 Feb 2026 12:52:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.513937
- Title: CosyAccent: Duration-Controllable Accent Normalization Using Source-Synthesis Training Data
- Title(参考訳): CosyAccent:ソース合成学習データを用いた経時的アクセント正規化
- Authors: Qibing Bai, Shuhao Shi, Shuai Wang, Yukai Ju, Yannan Wang, Haizhou Li,
- Abstract要約: データ構築を訓練するための「ソース合成」手法を提案する。
我々のアプローチは、TSアーティファクトからの学習を回避し、重要なことは、トレーニングで本当のL2データを必要としないことだ。
CosyAccentは、柔軟性のために暗黙的にリズムをモデル化するが、総出力時間に対する明示的な制御を提供する。
- 参考スコア(独自算出の注目度): 34.43284395277784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accent normalization (AN) systems often struggle with unnatural outputs and undesired content distortion, stemming from both suboptimal training data and rigid duration modeling. In this paper, we propose a "source-synthesis" methodology for training data construction. By generating source L2 speech and using authentic native speech as the training target, our approach avoids learning from TTS artifacts and, crucially, requires no real L2 data in training. Alongside this data strategy, we introduce CosyAccent, a non-autoregressive model that resolves the trade-off between prosodic naturalness and duration control. CosyAccent implicitly models rhythm for flexibility yet offers explicit control over total output duration. Experiments show that, despite being trained without any real L2 speech, CosyAccent achieves significantly improved content preservation and superior naturalness compared to strong baselines trained on real-world data.
- Abstract(参考訳): アクセント正規化(AN)システムは、しばしば不自然な出力と望ましくないコンテンツの歪みに苦しむ。
本稿では,データ構築を訓練するための「ソース合成」手法を提案する。
音源L2音声を生成し,実生音声を訓練対象とすることにより,RTSアーティファクトからの学習を回避し,重要な点として,実際のL2データを必要としない。
このデータ戦略に加えて、韻律的自然性と継続時間制御のトレードオフを解決する非自己回帰モデルであるCosyAccentを導入する。
CosyAccentは、柔軟性のために暗黙的にリズムをモデル化するが、総出力時間に対する明示的な制御を提供する。
実験によると、実際のL2スピーチなしでトレーニングされているにもかかわらず、CosyAccentは、実世界のデータに基づいてトレーニングされた強いベースラインと比較して、コンテンツ保存と優れた自然性の向上を実現している。
関連論文リスト
- ASTRA: Automated Synthesis of agentic Trajectories and Reinforcement Arenas [13.919124676472022]
ASTRAは、ツール拡張言語モデルエージェントをトレーニングするためのエンドツーエンドフレームワークである。
ASTRAはスケーラブルなデータ合成と検証可能な強化学習を統合している。
複数のエージェントツール使用ベンチマークの実験は、ASTRA訓練されたモデルが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-01-29T11:22:23Z) - Distillation Robustifies Unlearning [36.27570321651185]
モデルのトレーニングは、基礎となる機能をそのまま残しながら、インプット・アウトプットの動作を大幅に変更できることを示す。
本研究では,未学習のモデルを自身のノイズコピーに蒸留するスケーラブルな手法であるUnlearn-Noise-Distill-on-Outputs (UNDO)を提案する。
論文 参考訳(メタデータ) (2025-06-06T17:58:54Z) - Synthetic Data is an Elegant GIFT for Continual Vision-Language Models [52.343627275005026]
GIFTはVision-Language Modelsにおける破滅的な忘れを克服するための、新しい連続的な微調整手法である。
我々は、事前学習と下流タスクデータの両方を再現するために、事前学習した拡散モデルを用いる。
提案手法は,様々な設定において従来手法よりも常に優れていた。
論文 参考訳(メタデータ) (2025-03-06T09:09:18Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Prompting to Distill: Boosting Data-Free Knowledge Distillation via
Reinforced Prompt [52.6946016535059]
データフリー知識蒸留(DFKD)は、元のトレーニングデータの依存をなくし、知識蒸留を行う。
本稿では,PmptDFD(PromptDFD)と呼ばれるプロンプトベースの手法を提案する。
本実験で示すように, 本手法は, 合成品質を大幅に向上し, 蒸留性能を著しく向上させる。
論文 参考訳(メタデータ) (2022-05-16T08:56:53Z) - A Novel Speech Intelligibility Enhancement Model based on
CanonicalCorrelation and Deep Learning [12.913738983870621]
完全畳み込みニューラルネットワーク(FCN)モデルをトレーニングするために,正準相関に基づく短時間客観的インテリジェンス(CC-STOI)コスト関数を提案する。
CC-STOIに基づく音声強調フレームワークは、従来の距離ベースおよびSTOIに基づく損失関数で訓練された最先端のDLモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-11T16:48:41Z) - Combining Unsupervised and Text Augmented Semi-Supervised Learning for
Low Resourced Autoregressive Speech Recognition [7.067186994804316]
我々は教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。
追加のテキストデータは、外部言語モデルによって組み込まれている。
最終的なパフォーマンスは、半教師付きトレーニングにCTCベースのデコードを使用する場合、2%向上した絶対値である。
論文 参考訳(メタデータ) (2021-10-29T14:59:18Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。