論文の概要: Voice ''Cloning'' is Style Transfer
- arxiv url: http://arxiv.org/abs/2605.16578v2
- Date: Wed, 20 May 2026 16:52:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.219244
- Title: Voice ''Cloning'' is Style Transfer
- Title(参考訳): Voice 'Cloning'はスタイルトランスファーである
- Authors: Kaitlyn Zhou, Federico Bianchi, Martijn Bartelds, Anna Pot, Yongchan Kwon, James Zou,
- Abstract要約: この言葉にもかかわらず、音声のクローン化は個人の声を忠実に「クローン」するものではないことを示す。
広範に使用されている音声クローンモデルは,ソース音声へのスタイル転送を体系的に適用している。
人間のアノテータによって評価されるように、クローンされた音声は、より権威的で、温かく、カスタマーサービス風で、人間に似たものとして認識される。
- 参考スコア(独自算出の注目度): 35.849322148450604
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Artificially generated speech is increasingly embedded in everyday life. Voice cloning in particular enables applications where identity preservation is important, such as completing a recording, dubbing in a new language, or preserving the voices of individuals with speech loss. However, in our work, we find that despite the term, voice cloning does not faithfully ''clone'' an individual's voice. Instead, we find that widely-used voice cloning models systematically apply style transfer to source voices. As rated by human annotators, cloned voices are perceived as more authoritative, warm, customer-service-like, and human-like compared to their sources. Human annotators also report greater trust in cloned voices than source voices, and a greater willingness to disclose sensitive personal information to them. Our work furthermore shows that voice cloning leads to homogenization of speaker characteristics, as measured by reduced variance in accent, speaking rate, and the audio embedding space. Together, our results highlight a new set of limitations and risks of voice cloning technology and their potential impact on human behavior.
- Abstract(参考訳): 人工音声は日々の生活に埋もれている。
特に音声のクローン化は、録音の完了、新しい言語のダビング、音声ロスのある個人の声の保存など、アイデンティティの保存が重要であるアプリケーションを可能にする。
しかし,我々の研究では,音声のクローン化という用語は個人の声を忠実に「クローン」するものではないことが判明した。
代わりに、広く使われている音声クローンモデルは、ソース音声へのスタイル転送を体系的に適用している。
人間のアノテータによって評価されているように、クローンされた音声は、ソースよりも権威的で、温かくて、カスタマーサービス風で、人間のようなものだと見なされる。
人間のアノテータはまた、ソース音声よりもクローン音声への信頼が高まり、機密性の高い個人情報を開示する意思が高まることを報告している。
さらに我々の研究は、アクセントのばらつき、発声率、音声埋め込み空間のばらつきを減らして、音声のクローン化が話者特性の均質化につながることを示す。
この結果から,音声クローニング技術の新たな限界とリスクと,人間の行動に対する潜在的な影響が明らかになった。
関連論文リスト
- MOSS-VoiceGenerator: Create Realistic Voices with Natural Language Descriptions [60.69565588088127]
MOSS-VoiceGeneratorは、自然言語プロンプトから直接新しい音色を生成するオープンソースの命令駆動音声生成モデルである。
実世界の音響変化に曝露すると、より知覚的に自然な音声が生まれるという仮説に触発され、映画コンテンツから得られた大規模表現音声データに基づいて訓練を行う。
主観的嗜好研究は、他の音声設計モデルと比較して、全体的な性能、指示追従、自然性においてその優位性を示す。
論文 参考訳(メタデータ) (2026-03-30T06:40:59Z) - Advancing Voice Cloning for Nepali: Leveraging Transfer Learning in a Low-Resource Language [0.4810348726854312]
ニューラル・ボーカル・クローンシステムは、ほんの少しのオーディオサンプルを使って誰かの声を模倣することができる。
話者符号化と話者適応は、音声クローニングの分野における研究のトピックである。
主な目的は、ネパールアクセントで音声出力を生成する音声クローニングシステムを作ることである。
論文 参考訳(メタデータ) (2024-08-19T16:15:09Z) - Asynchronous Voice Anonymization Using Adversarial Perturbation On Speaker Embedding [46.25816642820348]
我々は、人間の知覚を維持しながら、音声認識に対して音声属性を変更することに重点を置いている。
話者ゆがみ機構を組み込んだ音声生成フレームワークを用いて匿名化音声を生成する。
LibriSpeechデータセットで行った実験では、話者の属性は、その人の知覚が処理された発話の60.71%で保存されていることが判明した。
論文 参考訳(メタデータ) (2024-06-12T13:33:24Z) - OpenVoice: Versatile Instant Voice Cloning [22.217256641284106]
本稿では,多目的音声クローニング手法であるOpenVoiceを紹介する。
音声を再現し、複数の言語で音声を生成するために、参照話者からの短い音声クリップしか必要としない。
OpenVoiceは世界中の200万人以上のユーザーがMyShell.aiの音声エンジンとして使っている。
論文 参考訳(メタデータ) (2023-12-03T18:41:54Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。
提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文 参考訳(メタデータ) (2021-01-30T05:09:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。