論文の概要: Rhythm Modeling for Voice Conversion
- arxiv url: http://arxiv.org/abs/2307.06040v1
- Date: Wed, 12 Jul 2023 09:35:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 13:40:54.787684
- Title: Rhythm Modeling for Voice Conversion
- Title(参考訳): 音声変換のためのリズムモデリング
- Authors: Benjamin van Niekerk, Marc-Andr\'e Carbonneau, Herman Kamper
- Abstract要約: リズム変換のための教師なし手法であるUrhythmicを導入する。
まず、音源音声をソノアリ、偽音、沈黙を近似したセグメントに分割する。
次に,各セグメントの発話速度や時間分布を推定し,リズムをモデル化する。
実験により、Urhythmicは、品質と韻律の観点から、既存の教師なしの手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 23.995555525421224
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice conversion aims to transform source speech into a different target
voice. However, typical voice conversion systems do not account for rhythm,
which is an important factor in the perception of speaker identity. To bridge
this gap, we introduce Urhythmic-an unsupervised method for rhythm conversion
that does not require parallel data or text transcriptions. Using
self-supervised representations, we first divide source audio into segments
approximating sonorants, obstruents, and silences. Then we model rhythm by
estimating speaking rate or the duration distribution of each segment type.
Finally, we match the target speaking rate or rhythm by time-stretching the
speech segments. Experiments show that Urhythmic outperforms existing
unsupervised methods in terms of quality and prosody. Code and checkpoints:
https://github.com/bshall/urhythmic. Audio demo page:
https://ubisoft-laforge.github.io/speech/urhythmic.
- Abstract(参考訳): 音声変換は、ソース音声を異なるターゲット音声に変換することを目的としている。
しかし、典型的な音声変換システムはリズムを考慮せず、これは話者識別の知覚において重要な要素である。
このギャップを埋めるために、並列データやテキストの書き起こしを必要としないリズム変換のためのUrhythmic-anunsupervisedメソッドを導入する。
自己教師あり表現を用いて,まず音源音声を音素,難聴者,沈黙を近似するセグメントに分割する。
次に,各セグメントの発話速度や時間分布を推定し,リズムをモデル化する。
最後に,発話区間の時間伸張により,発話速度やリズムを一致させる。
実験により、urhythmicは、品質と韻律の観点から、既存の教師なしの方法よりも優れていることが示されている。
コードとチェックポイント: https://github.com/bshall/urhythmic。
オーディオデモページ: https://ubisoft-laforge.github.io/speech/urhythmic.com
関連論文リスト
- Character-aware audio-visual subtitling in context [58.95580154761008]
本稿では,テレビ番組における文字認識型音声視覚サブタイピングのための改良されたフレームワークを提案する。
提案手法は,音声認識,話者ダイアリゼーション,文字認識を統合し,音声と視覚の両方を活用する。
提案手法を12テレビ番組のデータセット上で検証し,既存手法と比較して話者ダイアリゼーションと文字認識精度に優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-14T20:27:34Z) - Speech Diarization and ASR with GMM [0.0]
音声ダイアリゼーションは、音声ストリーム内の個々の話者の分離を含む。
ASRは未知の音声波形を対応する書き起こしに変換する。
我々の主な目的は、音声の書き起こし中にワード誤り率(WER)を最小化するモデルを開発することである。
論文 参考訳(メタデータ) (2023-07-11T09:25:39Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled
Videos [44.14061539284888]
そこで本稿では,未ラベルデータのみを用いて,テキスト検索による普遍的音源分離手法を提案する。
提案したCLIPSepモデルは、まずコントラッシブ言語画像事前学習(CLIP)モデルを用いて、入力クエリをクエリベクトルにエンコードする。
モデルはラベルのないビデオから抽出した画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはゼロショット設定でテキスト入力でモデルをクエリすることができる。
論文 参考訳(メタデータ) (2022-12-14T07:21:45Z) - AudioGen: Textually Guided Audio Generation [116.57006301417306]
記述文キャプションに条件付き音声サンプルを生成する問題に対処する。
本研究では,テキスト入力に条件付き音声サンプルを生成する自動回帰モデルであるAaudioGenを提案する。
論文 参考訳(メタデータ) (2022-09-30T10:17:05Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer [4.167459103689587]
本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
論文 参考訳(メタデータ) (2022-03-08T14:08:47Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。