論文の概要: AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
- arxiv url: http://arxiv.org/abs/2305.04476v3
- Date: Sat, 13 May 2023 07:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-16 20:33:48.391054
- Title: AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment
- Title(参考訳): AlignSTS: クロスモーダルアライメントによる音声対歌変換
- Authors: Ruiqi Li, Rongjie Huang, Lichao Zhang, Jinglin Liu, Zhou Zhao
- Abstract要約: STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
- 参考スコア(独自算出の注目度): 67.10208647482109
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The speech-to-singing (STS) voice conversion task aims to generate singing
samples corresponding to speech recordings while facing a major challenge: the
alignment between the target (singing) pitch contour and the source (speech)
content is difficult to learn in a text-free situation. This paper proposes
AlignSTS, an STS model based on explicit cross-modal alignment, which views
speech variance such as pitch and content as different modalities. Inspired by
the mechanism of how humans will sing the lyrics to the melody, AlignSTS: 1)
adopts a novel rhythm adaptor to predict the target rhythm representation to
bridge the modality gap between content and pitch, where the rhythm
representation is computed in a simple yet effective way and is quantized into
a discrete space; and 2) uses the predicted rhythm representation to re-align
the content based on cross-attention and conducts a cross-modal fusion for
re-synthesize. Extensive experiments show that AlignSTS achieves superior
performance in terms of both objective and subjective metrics. Audio samples
are available at https://alignsts.github.io.
- Abstract(参考訳): 音声認識(sts)音声変換タスクは、音声録音に対応する歌唱サンプルを生成することを目的としており、ターゲット(音声)ピッチ輪郭とソース(音声)コンテンツとのアライメントは、テキストのない状況では学習が困難である。
本稿では,音節や内容などの発話の相違を異なるモーダル性として捉えた,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
人間がメロディの歌詞を歌うメカニズムに触発されたAlignSTS:
1)新規なリズム適応器を採用して、目標リズム表現を予測し、そのリズム表現が単純で効果的な方法で計算され、離散空間に量子化される、内容とピッチの間のモダリティギャップを橋渡しする。
2) 予測リズム表現を用いて, クロスアテンションに基づいてコンテンツを再調整し, 再合成のためのクロスモーダル融合を行う。
大規模な実験では、AlignSTSは客観的な指標と主観的な指標の両方で優れたパフォーマンスを達成している。
オーディオサンプルはhttps://alignsts.github.ioで入手できる。
関連論文リスト
- VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Parameter Efficient Audio Captioning With Faithful Guidance Using
Audio-text Shared Latent Representation [0.9285295512807729]
本稿では,幻覚音の字幕を生成するためのデータ拡張手法を提案する。
次に,パラメータ効率の良い推論時間忠実復号アルゴリズムを提案し,より多くのデータで訓練されたより大きなモデルに匹敵する性能を持つ小型オーディオキャプションモデルを実現する。
論文 参考訳(メタデータ) (2023-09-06T19:42:52Z) - Rhythm Modeling for Voice Conversion [23.995555525421224]
リズム変換のための教師なし手法であるUrhythmicを導入する。
まず、音源音声をソノアリ、偽音、沈黙を近似したセグメントに分割する。
次に,各セグメントの発話速度や時間分布を推定し,リズムをモデル化する。
実験により、Urhythmicは、品質と韻律の観点から、既存の教師なしの手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-12T09:35:16Z) - Speech Representation Disentanglement with Adversarial Mutual
Information Learning for One-shot Voice Conversion [42.43123253495082]
単一の話者の発話しか参照できないワンショット音声変換(VC)がホットな研究トピックとなっている。
我々は、ピッチとコンテントエンコーダのランダムな再サンプリングを採用し、音声成分をアンタングルにするために、相互情報の差分対数比上限を用いる。
VCTKデータセットの実験では、自然性とインテリジェンスの観点から、ワンショットVCの最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-08-18T10:36:27Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。