論文の概要: Voice Aging with Audio-Visual Style Transfer
- arxiv url: http://arxiv.org/abs/2110.02411v1
- Date: Tue, 5 Oct 2021 23:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-07 14:35:52.538121
- Title: Voice Aging with Audio-Visual Style Transfer
- Title(参考訳): 音声-視覚スタイル変換による音声の時効化
- Authors: Justin Wilson and Sunyeong Park and Seunghye J. Wilson and Ming C. Lin
- Abstract要約: 顔の老化技術は、GAN(Generative Adversarial Network)とスタイルトランスファー学習(style transfer learning)を使用して、より若く見えるように外観を変換している。
本研究は,話者の音声の年齢に類似したアプローチを適用し,これを音声老化と呼ぶ。
まず、話者の音声と顔データに基づいて畳み込みニューラルネットワーク(CNN)を訓練し、話者の年齢の分類をCommon VoiceとVoxCelebデータセットから分析する。
我々は,入力スペクトログラムを様々な年齢に変換するために,スタイル転送から老化音声を生成し,モバイルアプリ上でその手法を実証する。
- 参考スコア(独自算出の注目度): 22.04110677199077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Face aging techniques have used generative adversarial networks (GANs) and
style transfer learning to transform one's appearance to look younger/older.
Identity is maintained by conditioning these generative networks on a learned
vector representation of the source content. In this work, we apply a similar
approach to age a speaker's voice, referred to as voice aging. We first analyze
the classification of a speaker's age by training a convolutional neural
network (CNN) on the speaker's voice and face data from Common Voice and
VoxCeleb datasets. We generate aged voices from style transfer to transform an
input spectrogram to various ages and demonstrate our method on a mobile app.
- Abstract(参考訳): 顔の老化技術は、GAN(Generative Adversarial Network)とスタイルトランスファー学習(style transfer learning)を使用して、より若く見えるように外観を変換している。
アイデンティティは、これらの生成ネットワークをソースコンテンツの学習ベクトル表現に条件付けすることで維持される。
本研究では,同様のアプローチを話者の声の老化に適用し,音声の老化について述べる。
まず、話者の音声と顔データに基づいて畳み込みニューラルネットワーク(CNN)を訓練し、話者の年齢の分類をCommon VoiceとVoxCelebデータセットから分析する。
入力スペクトログラムを様々な年齢に変換するために,スタイル転送から老化音声を生成し,モバイルアプリでその方法を示す。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - JEAN: Joint Expression and Audio-guided NeRF-based Talking Face Generation [24.2065254076207]
共同表現と音声誘導による発話顔生成のための新しい手法を提案する。
提案手法は,高忠実度音声映像を合成し,最先端の表情伝達を実現する。
論文 参考訳(メタデータ) (2024-09-18T17:18:13Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Robust Disentangled Variational Speech Representation Learning for
Zero-shot Voice Conversion [34.139871476234205]
自己教師付き不協和音声表現学習の新たな視点からゼロショット音声変換について検討する。
任意の話者埋め込みとコンテンツ埋め込みとを逐次変分オートエンコーダ(VAE)デコーダに供給してゼロショット音声変換を行う。
TIMIT と VCTK のデータセットでは,話者の埋め込みとコンテンツ埋め込みに関する話者検証 (SV) と主観的評価,すなわち音声の自然性や類似性を両立させ,ノイズのある音源/ターゲット発話においても頑健である。
論文 参考訳(メタデータ) (2022-03-30T23:03:19Z) - One-shot Talking Face Generation from Single-speaker Audio-Visual
Correlation Learning [20.51814865676907]
特定の話者から一貫した音声スタイルを学ぶ方がずっと簡単で、それが本物の口の動きにつながる。
本研究では,特定の話者からの音声と視覚の動きの一致した相関関係を探索し,一対一の会話顔生成フレームワークを提案する。
学習した一貫した話し方のおかげで,本手法は真正な口の形状と鮮明な動きを生成する。
論文 参考訳(メタデータ) (2021-12-06T02:53:51Z) - Controlled AutoEncoders to Generate Faces from Voices [30.062970046955577]
学習された音声と顔の相関によって暗黙的に顔の特徴が導かれるように、所定の声に反応して対象の顔を変化させる枠組みを提案する。
我々はVoxCelabとVGGFaceのデータセットの枠組みを人体と顔検索を通して評価した。
論文 参考訳(メタデータ) (2021-07-16T16:04:29Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。