論文の概要: Speak Like a Dog: Human to Non-human creature Voice Conversion
- arxiv url: http://arxiv.org/abs/2206.04780v1
- Date: Thu, 9 Jun 2022 22:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-13 14:56:17.303157
- Title: Speak Like a Dog: Human to Non-human creature Voice Conversion
- Title(参考訳): 犬に話しかける:人間から非人間への声の変換
- Authors: Kohei Suzuki, Shoki Sakamoto, Tadahiro Taniguchi, Hirokazu Kameoka
- Abstract要約: H2NH-VCは、人間の発話を人間以外の生物のような音声に変換することを目的としている。
本研究では,「犬のように話す」タスクの可能性と特徴を明らかにするために,比較実験を行った。
変換音声は, 平均評価スコアを用いて評価された: 犬の類似性, 音質, 知性, 文字誤り率(CER)
- 参考スコア(独自算出の注目度): 19.703397078178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a new voice conversion (VC) task from human speech to
dog-like speech while preserving linguistic information as an example of human
to non-human creature voice conversion (H2NH-VC) tasks. Although most VC
studies deal with human to human VC, H2NH-VC aims to convert human speech into
non-human creature-like speech. Non-parallel VC allows us to develop H2NH-VC,
because we cannot collect a parallel dataset that non-human creatures speak
human language. In this study, we propose to use dogs as an example of a
non-human creature target domain and define the "speak like a dog" task. To
clarify the possibilities and characteristics of the "speak like a dog" task,
we conducted a comparative experiment using existing representative
non-parallel VC methods in acoustic features (Mel-cepstral coefficients and
Mel-spectrograms), network architectures (five different kernel-size settings),
and training criteria (variational autoencoder (VAE)- based and generative
adversarial network-based). Finally, the converted voices were evaluated using
mean opinion scores: dog-likeness, sound quality and intelligibility, and
character error rate (CER). The experiment showed that the employment of the
Mel-spectrogram improved the dog-likeness of the converted speech, while it is
challenging to preserve linguistic information. Challenges and limitations of
the current VC methods for H2NH-VC are highlighted.
- Abstract(参考訳): 本稿では,人間から非人間への音声変換(H2NH-VC)タスクの例として,言語情報を保存しながら,人間の音声から犬のような音声への新しい音声変換(VC)タスクを提案する。
ほとんどのVC研究はヒトからヒトのVCを扱うが、H2NH-VCは人間のスピーチを人間以外の生物のような音声に変換することを目指している。
非並列VCは、人間以外の生物が人間の言語を話すような並列データセットを収集できないため、H2NH-VCの開発を可能にします。
本研究では,非ヒト生物対象領域の例として犬を用い,「犬のように話す」タスクを定義することを提案する。
犬のように話す」タスクの可能性と特性を明らかにするために,既存の代表的な非並列vc手法を用いた音響的特徴(メルケプストラム係数とメルスペクトログラム),ネットワークアーキテクチャ(5つの異なるカーネルサイズ設定),訓練基準(可変オートエンコーダ(vae)ベースと生成的逆ネットワークベース)の比較実験を行った。
最後に, 犬性, 音質, 知性, 文字誤り率 (cer) などの平均評価スコアを用いて, 変換音声の評価を行った。
メルスペクトログラムの活用は, 言語情報の保存が困難である一方で, 変換音声の犬相性が向上することを示した。
H2NH-VCの現在のVCメソッドの課題と制限が強調されている。
関連論文リスト
- Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification [23.974783158267428]
犬の樹皮分類課題に対処するために,人間の音声で事前訓練した自己教師付き音声表現モデルの利用について検討する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
また、大規模人間の音声音響学で事前訓練されたモデルでは、いくつかのタスクでさらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-29T14:41:59Z) - SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - Toward a realistic model of speech processing in the brain with
self-supervised learning [67.7130239674153]
生波形で訓練された自己教師型アルゴリズムは有望な候補である。
We show that Wav2Vec 2.0 learns brain-like representations with little as 600 hours of unlabelled speech。
論文 参考訳(メタデータ) (2022-06-03T17:01:46Z) - Training Robust Zero-Shot Voice Conversion Models with Self-supervised
Features [24.182732872327183]
Unsampling Zero-Shot Voice Conversion (VC) は、発話の話者特性を未確認のターゲット話者に合わせるように修正することを目的としている。
長さ再構成デコーダを用いて高品質なオーディオサンプルを作成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-08T17:27:39Z) - V2C: Visual Voice Cloning [55.55301826567474]
我々はVisual Voice Cloning (V2C) という新しいタスクを提案する。
V2Cは、参照音声によって特定された所望の音声と、参照ビデオによって特定された所望の感情の両方で、テキストの段落を音声に変換する。
私たちのデータセットには、さまざまなジャンルをカバーする10,217本のアニメーション映画クリップが含まれています。
論文 参考訳(メタデータ) (2021-11-25T03:35:18Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z) - VQVC+: One-Shot Voice Conversion by Vector Quantization and U-Net
architecture [71.45920122349628]
自動エンコーダベースのVC手法は、話者のアイデンティティを付与することなく、入力音声中の話者とコンテンツをアンタングルする。
自動エンコーダベースのVCシステムでは,U-Netアーキテクチャを用いて音質を向上する。
論文 参考訳(メタデータ) (2020-06-07T14:01:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。