Fugu-MT 論文翻訳(概要): Fast-VGAN: Lightweight Voice Conversion with Explicit Control of F0 and Duration Parameters

論文の概要: Fast-VGAN: Lightweight Voice Conversion with Explicit Control of F0 and Duration Parameters

arxiv url: http://arxiv.org/abs/2507.04817v1
Date: Mon, 07 Jul 2025 09:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-08 15:46:35.359454
Title: Fast-VGAN: Lightweight Voice Conversion with Explicit Control of F0 and Duration Parameters
Title（参考訳）: F0と時間パラメータの明示的制御による高速VGAN:軽量音声変換
Authors: Mathilde Abrassart, Nicolas Obin, Axel Roebel,
Abstract要約: ピッチ、持続時間、発話速度などの音声特性の制御は、音声変換の分野において重要な課題である。本稿では、基本周波数(F0)、音素配列、強度、話者識別を改良する手段を提供することを目的とした畳み込みニューラルネットワークに基づくアプローチを提案する。提案手法は,高い可知性と話者類似性を維持しつつ,高い柔軟性を提供することを示す。
参考スコア（独自算出の注目度）: 7.865191493201841
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Precise control over speech characteristics, such as pitch, duration, and speech rate, remains a significant challenge in the field of voice conversion. The ability to manipulate parameters like pitch and syllable rate is an important element for effective identity conversion, but can also be used independently for voice transformation, achieving goals that were historically addressed by vocoder-based methods. In this work, we explore a convolutional neural network-based approach that aims to provide means for modifying fundamental frequency (F0), phoneme sequences, intensity, and speaker identity. Rather than relying on disentanglement techniques, our model is explicitly conditioned on these factors to generate mel spectrograms, which are then converted into waveforms using a universal neural vocoder. Accordingly, during inference, F0 contours, phoneme sequences, and speaker embeddings can be freely adjusted, allowing for intuitively controlled voice transformations. We evaluate our approach on speaker conversion and expressive speech tasks using both perceptual and objective metrics. The results suggest that the proposed method offers substantial flexibility, while maintaining high intelligibility and speaker similarity.
Abstract（参考訳）: ピッチ、持続時間、発話速度などの音声特性の精密制御は、音声変換の分野において重要な課題である。ピッチや音節率などのパラメータを操作する能力は、効果的なアイデンティティ変換の重要な要素であるが、音声変換にも独立して使用することができ、歴史的にボコーダベースの手法で対処された目標を達成することができる。本研究では、基本周波数(F0)、音素配列、強度、話者識別の修正手段を提供することを目的とした畳み込みニューラルネットワークに基づくアプローチを検討する。このモデルでは, 遠絡技術に頼らず, これらの因子を明示的に条件付け, メルスペクトログラムを生成し, 普遍的なニューラルボコーダを用いて波形に変換する。したがって、推測中は、F0輪郭、音素シーケンス、および話者埋め込みを自由に調整でき、直感的に音声変換を制御できる。我々は,知覚的・客観的な指標を用いて,話者変換と表現的音声タスクに対するアプローチを評価する。提案手法は,高い可知性と話者類似性を維持しつつ,高い柔軟性を提供することを示す。

関連論文リスト

Discl-VC: Disentangled Discrete Tokens and In-Context Learning for Controllable Zero-Shot Voice Conversion [16.19865417052239]
Discl-VCはゼロショット音声変換フレームワークである。内容と韻律情報を自己教師型音声表現から切り離す。ターゲット話者の声をテキスト内学習により合成する。
論文参考訳（メタデータ） (2025-05-30T07:04:23Z)
Controllable speech synthesis by learning discrete phoneme-level prosodic representations [53.926969174260705]
直感的な離散ラベルを用いたF0と持続時間に対する音素レベル韻律制御のための新しい手法を提案する。複数話者音声データセットから音素レベルF0と持続時間の特徴を識別するために用いられる教師なし韻律クラスタリングプロセスを提案する。
論文参考訳（メタデータ） (2022-11-29T15:43:36Z)
Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文参考訳（メタデータ） (2022-11-22T02:50:12Z)
DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion [17.83563578034567]
補助的ネットワークを伴う変分オートコーダに基づく音声変換モデルを提案する。提案手法の有効性を客観評価および主観評価により示す。
論文参考訳（メタデータ） (2022-10-20T07:30:07Z)
Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文参考訳（メタデータ） (2020-09-06T13:01:06Z)
Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文参考訳（メタデータ） (2020-08-11T07:29:55Z)
Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文参考訳（メタデータ） (2020-05-18T04:02:08Z)
End-to-End Whisper to Natural Speech Conversion using Modified Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文参考訳（メタデータ） (2020-04-20T14:47:46Z)
F0-consistent many-to-many non-parallel voice conversion via conditional autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文参考訳（メタデータ） (2020-04-15T22:00:06Z)
Vocoder-free End-to-End Voice Conversion with Transformer Network [5.5792083698526405]
メル周波数フィルタバンク(MFB)に基づく手法は,MFBが特徴量が少ないため,生スペクトルと比較して学習音声の利点がある。生のスペクトルと位相のみを用いて、明瞭な発音で異なるスタイルの音声を生成することができる。本稿では,トランスネットワークを用いたヴォコーダフリーのエンドツーエンド音声変換手法を提案する。
論文参考訳（メタデータ） (2020-02-05T06:19:24Z)
Transforming Spectrum and Prosody for Emotional Voice Conversion with Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文参考訳（メタデータ） (2020-02-01T12:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。