Fugu-MT 論文翻訳(概要): OpenVoice: Versatile Instant Voice Cloning

論文の概要: OpenVoice: Versatile Instant Voice Cloning

arxiv url: http://arxiv.org/abs/2312.01479v5
Date: Tue, 2 Jan 2024 17:45:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 19:42:52.602281
Title: OpenVoice: Versatile Instant Voice Cloning
Title（参考訳）: openvoice: 汎用的な音声クローン
Authors: Zengyi Qin, Wenliang Zhao, Xumin Yu and Xin Sun
Abstract要約: 本稿では,多目的音声クローニング手法であるOpenVoiceを紹介する。音声を再現し、複数の言語で音声を生成するために、参照話者からの短い音声クリップしか必要としない。
参考スコア（独自算出の注目度）: 24.270756803768194
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We introduce OpenVoice, a versatile voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. OpenVoice represents a significant advancement in addressing the following open challenges in the field: 1) Flexible Voice Style Control. OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. The voice styles are not directly copied from and constrained by the style of the reference speaker. Previous approaches lacked the ability to flexibly manipulate voice styles after cloning. 2) Zero-Shot Cross-Lingual Voice Cloning. OpenVoice achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. Unlike previous approaches, which typically require extensive massive-speaker multi-lingual (MSML) dataset for all languages, OpenVoice can clone voices into a new language without any massive-speaker training data for that language. OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. To foster further research in the field, we have made the source code and trained model publicly accessible. We also provide qualitative results in our demo website. Prior to its public release, our internal version of OpenVoice was used tens of millions of times by users worldwide between May and October 2023, serving as the backend of MyShell.
Abstract（参考訳）: OpenVoiceは,参照話者からの短い音声クリップだけで音声を再現し,複数の言語で音声を生成する,汎用的な音声クローニング手法である。 OpenVoiceは、この分野における以下のオープンな課題に対処する上で、大きな進歩を示している。 1)柔軟な音声スタイル制御。 OpenVoiceは、感情、アクセント、リズム、ポーズ、イントネーションを含む音声スタイルのきめ細かい制御を可能にし、参照話者のトーンカラーを再現する。音声スタイルは、参照話者のスタイルによって直接コピーされ、制約されない。以前のアプローチでは、クローン後の音声スタイルを柔軟に操作する能力がなかった。 2)ゼロショットクロスリンガル音声クローン。 openvoiceは、大規模話者訓練セットに含まれない言語に対して、ゼロショットのクロスリンガル音声クローンを実現する。すべての言語に対して大規模なマルチリンガル(MSML)データセットを必要とする従来のアプローチとは異なり、OpenVoiceは、その言語のための大規模なスピーカートレーニングデータなしで、音声を新しい言語にクローンすることができる。 OpenVoiceは計算効率も高く、商用のAPIよりも何倍もコストがかかる。この分野のさらなる研究を促進するために、ソースコードとトレーニングモデルを公開アクセス可能にしました。デモサイトでも質的な結果を提供しています。 OpenVoiceは一般公開される前、2023年5月から10月にかけて世界中で何千万回も利用され、MyShellのバックエンドとして使われていました。

関連論文リスト

VoiceCraft-X: Unifying Multilingual, Voice-Cloning Speech Synthesis and Speech Editing [37.022292043526186]
VoiceCraft-Xは、多言語音声編集とテキスト音声合成を統合する自動回帰型ニューラルネットワークモデルである。 VoiceCraft-Xは、言語毎に限られたデータであっても、多様な言語設定で堅牢なパフォーマンスを示す。
論文参考訳（メタデータ） (2025-11-15T20:27:25Z)
CosyVoice 3: Towards In-the-wild Speech Generation via Scaling-up and Post-training [70.31925012315064]
野生におけるゼロショット多言語音声合成のための改良モデルであるCosyVoice 3を提案する。 CosyVoice 3の主な特徴は、韻律自然性を改善する新しい音声トークンである。データは1万時間から100万時間に拡張され、9つの言語と18の中国語方言を含んでいる。
論文参考訳（メタデータ） (2025-05-23T07:55:21Z)
Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play [21.93291433513335]
Voilaは応答遅延をわずか195ミリ秒で達成し、平均的な人間の応答時間を上回る。その階層的なマルチスケールトランスフォーマーは、大規模言語モデルの推論機能を統合する。 Voilaは、100万以上のプレビルドされた音声をサポートし、短いオーディオサンプルから10秒で新しい音声を効率的にカスタマイズする。
論文参考訳（メタデータ） (2025-05-05T15:05:01Z)
MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文参考訳（メタデータ） (2024-08-08T18:12:51Z)
FunAudioLLM: Voice Understanding and Generation Foundation Models for Natural Interaction Between Humans and LLMs [63.8261207950923]
FunAudioLLMは、人間と大規模言語モデル(LLM)の間の自然な音声相互作用を強化するために設計されたモデルファミリーである中心となる2つの革新的なモデルとして、多言語音声認識、感情認識、音声イベント検出を処理するSenseVoiceと、複数の言語、音色、話し方、話者識別を制御した自然言語生成を容易にするCosyVoiceがある。 SenseVoiceとCosyVoiceに関連するモデルは、GitHubでリリースされたトレーニング、推論、微調整コードとともに、ModelscopeとHuggingfaceでオープンソース化されている。
論文参考訳（メタデータ） (2024-07-04T16:49:02Z)
PolyVoice: Language Models for Speech to Speech Translation [50.31000706309143]
PolyVoiceは音声音声翻訳のための言語モデルに基づくフレームワーク我々は、完全に教師なしの方法で生成される離散化音声単位を使用する。音声合成部では、既存のVALL-E Xアプローチを採用し、単位ベース音声言語モデルを構築する。
論文参考訳（メタデータ） (2023-06-05T15:53:15Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
Expressive Neural Voice Cloning [12.010555227327743]
合成音声の様々なスタイルの様々な側面をきめ細かな制御が可能な制御可能な音声クローニング法を提案する。提案手法は,新たな話者のための音声サンプルの書き起こしと書き起こしのみを用いて,様々な音声のクローニング作業に利用できることを示す。
論文参考訳（メタデータ） (2021-01-30T05:09:57Z)
Latent linguistic embedding for cross-lingual text-to-speech and voice conversion [44.700803634034486]
言語間音声生成は、話者が話さない言語において、ターゲット話者の声で発話が生成されるシナリオである。提案手法は, 話者類似度の高い多言語VCを生成するだけでなく, 余分なステップを踏むことなく, TTSをシームレスに利用できることを示す。
論文参考訳（メタデータ） (2020-10-08T01:25:07Z)
Speaker Independent and Multilingual/Mixlingual Speech-Driven Talking Head Generation Using Phonetic Posteriorgrams [58.617181880383605]
そこで本研究では,音声後部グラフを用いた新しい手法を提案する。我々の手法は手作りの特徴を必要とせず、近年の手法に比べてノイズに強い。本モデルは,複数言語/混合言語音声を説得力のある入力としてサポートした最初のモデルである。
論文参考訳（メタデータ） (2020-06-20T16:32:43Z)
Generating Multilingual Voices Using Speaker Space Translation Based on Bilingual Speaker Data [15.114637085644057]
言語における合成音声のアクセントの度合いを制御するために,話者空間における単純な変換が利用できることを示す。同じ変換を単言語話者にも適用することができる。
論文参考訳（メタデータ） (2020-04-10T10:01:53Z)
VoiceCoach: Interactive Evidence-based Training for Voice Modulation Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文参考訳（メタデータ） (2020-01-22T04:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。