論文の概要: F5-TTS-RO: Extending F5-TTS to Romanian TTS via Lightweight Input Adaptation
- arxiv url: http://arxiv.org/abs/2512.12297v1
- Date: Sat, 13 Dec 2025 11:41:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.206383
- Title: F5-TTS-RO: Extending F5-TTS to Romanian TTS via Lightweight Input Adaptation
- Title(参考訳): F5-TTS-RO:軽量入力適応によるルーマニアTSへのF5-TTS拡張
- Authors: Radu-Gabriel Chivereanu, Tiberiu Boros,
- Abstract要約: この研究は、ルーマニア語のサポートを可能にするF5-TTSモデルの軽量な入力レベルアダプタを導入している。
オリジナルのウェイトを凍結し、サブネットワークをモデルに追加し、テキストエンコーダのテキスト埋め込みマトリックスの拡張としてトレーニングします。
a) 参照音声と生成された音声の類似性、(b) 発音と自然性、(c) ルーマニア英語のコードスイッチングである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This work introduces a lightweight input-level adapter for the F5-TTS model that enables Romanian Language support. To preserve the existing capabilities of the model (voice cloning, English and Chinese support), we keep the original weights frozen, append a sub-network to the model and train it as an extension for the textual embedding matrix of the text encoder. For simplicity, we rely on ConvNeXt module implemented in F5-TTS to also model the co-dependencies between the new character-level embeddings. The module serves as a ``soft`` letter-to-sound layer, converting Romanian text into a continuous representation that the F5-TTS model uses to produce naturally sounding Romanian utterances. We evaluate the model with a pool of 20 human listeners across three tasks: (a) audio similarity between reference and generated speech, (b) pronunciation and naturalness and (c) Romanian-English code-switching. The results indicate that our approach maintains voice cloning capabilities and enables, to a certain extent, code-switching within the same utterance; however, residual English accent characteristics remain. We open-source our code and provide example audio samples at https://github.com/racai-ro/Ro-F5TTS.
- Abstract(参考訳): この研究は、ルーマニア語のサポートを可能にするF5-TTSモデルの軽量な入力レベルアダプタを導入している。
モデルの既存の機能(音声クローン、英語、中国語のサポート)を維持するため、元のウェイトを凍結し、サブネットワークをモデルに追加し、テキストエンコーダのテキスト埋め込み行列の拡張としてトレーニングする。
簡単に言うと、F5-TTSで実装されたConvNeXtモジュールを使って、新しいキャラクタレベルの埋め込みの共依存性をモデル化する。
このモジュールは ``soft`` letter-to-sound 層として機能し、ルーマニア語のテキストをF5-TTSモデルが自然に発音するルーマニア語の発話を生成するために使用する連続表現に変換する。
3つのタスクにまたがる20人の聞き手によるモデルの評価を行う。
(a)参照音声と生成された音声との音声類似性
b)発音・自然性・自然性
(c)ルーマニア語と英語のコードスイッチング。
提案手法は,音声のクローニング能力を維持し,ある程度は,同一発話内でのコードスイッチングを可能にするが,英語アクセントの特徴は残っていない。
コードをオープンソースにして、https://github.com/racai-ro/Ro-F5TTSでサンプルオーディオサンプルを提供しています。
関連論文リスト
- Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Cross-lingual Knowledge Distillation via Flow-based Voice Conversion for
Robust Polyglot Text-To-Speech [6.243356997302935]
本稿では、上流音声変換(VC)モデルと下流音声合成(TTS)モデルを含む、言語間音声合成のためのフレームワークを提案する。
最初の2段階では、VCモデルを用いてターゲット話者の発話をターゲット話者の声に変換する。
第3段階では、変換されたデータは、対象言語における記録からの言語的特徴や持続時間と組み合わせられ、単一話者音響モデルの訓練に使用される。
論文 参考訳(メタデータ) (2023-09-15T09:03:14Z) - Mega-TTS: Zero-Shot Text-to-Speech at Scale with Intrinsic Inductive
Bias [71.94109664001952]
Mega-TTSは、大規模な野生データで訓練された新しいゼロショットTSシステムである。
Mega-TTS はゼロショット TTS 音声編集や言語間 TTS タスクにおいて最先端 TTS システムを超えていることを示す。
論文 参考訳(メタデータ) (2023-06-06T08:54:49Z) - Text-to-Audio Generation using Instruction-Tuned LLM and Latent
Diffusion Model [23.058939018350603]
大型言語モデル(LLM)は、命令やチェーン・オブ・シンクベースの微調整など、多くの興味深い特性を実現する。
我々は、テキスト・トゥ・オーディオ(TTA)生成のためのテキストエンコーダとして、命令調整型LLM Flan-T5を採用する。
我々のアプローチであるTANGOは、ほとんどのメトリクスで最先端のAudioLDMより優れており、AudioCapsテストセットで他と同等です。
論文 参考訳(メタデータ) (2023-04-24T07:45:28Z) - T5lephone: Bridging Speech and Text Self-supervised Models for Spoken
Language Understanding via Phoneme level T5 [65.32642587901903]
我々は、異なるトークン化戦略を持つPLMが音声言語理解タスクにどのように影響するかを広範囲に研究する。
我々は、音素化されたテキストを使って事前訓練されたT5の変種であるT5lephoneを作成するためのアイデアを拡張した。
論文 参考訳(メタデータ) (2022-11-01T17:00:23Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。