論文の概要: When Humans Growl and Birds Speak: High-Fidelity Voice Conversion from Human to Animal and Designed Sounds
- arxiv url: http://arxiv.org/abs/2505.24336v1
- Date: Fri, 30 May 2025 08:24:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.848049
- Title: When Humans Growl and Birds Speak: High-Fidelity Voice Conversion from Human to Animal and Designed Sounds
- Title(参考訳): 人間が成長し、鳥が話すとき:人間から動物、そしてデザインされた音への高忠実な声変換
- Authors: Minsu Kang, Seolhee Lee, Choonghyeon Lee, Namhyun Cho,
- Abstract要約: 人間から非人間への音声変換(H2NH-VC)は、人間の音声を動物や設計された発声に変換する。
我々は,前処理パイプラインと改良されたCVAEベースのH2NH-VCモデルを導入する。
実験の結果,提案手法は品質,自然性,類似性MOSのベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 2.0999222360659613
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human to non-human voice conversion (H2NH-VC) transforms human speech into animal or designed vocalizations. Unlike prior studies focused on dog-sounds and 16 or 22.05kHz audio transformation, this work addresses a broader range of non-speech sounds, including natural sounds (lion-roars, birdsongs) and designed voice (synthetic growls). To accomodate generation of diverse non-speech sounds and 44.1kHz high-quality audio transformation, we introduce a preprocessing pipeline and an improved CVAE-based H2NH-VC model, both optimized for human and non-human voices. Experimental results showed that the proposed method outperformed baselines in quality, naturalness, and similarity MOS, achieving effective voice conversion across diverse non-human timbres. Demo samples are available at https://nc-ai.github.io/speech/publications/nonhuman-vc/
- Abstract(参考訳): 人間から非人間への音声変換(H2NH-VC)は、人間の音声を動物や設計された発声に変換する。
犬声と16または22.05kHzのオーディオ変換に焦点を当てた以前の研究とは異なり、この研究は自然音(Lion-roars, Birdongs)やデザイン音声(synthetic growthls)を含む、幅広い非音声音に対応している。
多様な非音声音の発生と44.1kHzの高音質変換を実現するために,前処理パイプラインと改良されたCVAEベースのH2NH-VCモデルを導入する。
実験結果から,提案手法は品質,自然性,類似性MOSよりも優れており,多種多様な非ヒトの音色に対して効果的な音声変換を実現していることがわかった。
デモサンプルはhttps://nc-ai.github.io/speech/publications/non human-vc/で公開されている。
関連論文リスト
- AudCast: Audio-Driven Human Video Generation by Cascaded Diffusion Transformers [83.90298286498306]
既存の方法は、主に顔の動きを駆動することに焦点を当てており、非コヒーレントな頭と体の動きに繋がる。
本稿では,Diffusion-Transformers(DiT)パラダイムを取り入れた一般的な音声駆動型ヒューマンビデオ生成フレームワークであるAudCastを提案する。
我々のフレームワークは、時間的コヒーレンスときめ細かい顔と手細かな細部を持つ高忠実なオーディオ駆動型人間ビデオを生成する。
論文 参考訳(メタデータ) (2025-03-25T16:38:23Z) - AV-Flow: Transforming Text to Audio-Visual Human-like Interactions [101.31009576033776]
AV-Flowは、テキスト入力のみを与えられた写真リアリスティックな4D音声アバターを識別するオーディオ視覚生成モデルである。
人間の音声合成, 唇の動きの同期, 表情の鮮やかさ, 頭ポーズを実演した。
論文 参考訳(メタデータ) (2025-02-18T18:56:18Z) - Sketching With Your Voice: "Non-Phonorealistic" Rendering of Sounds via Vocal Imitation [44.50441058435848]
人間の声の模倣を再現する手法を提案する。
まず、モデルの制御パラメータを調整して、音声の模倣を生成する。
人間の話者が聴取者に対して戦略的に判断する方法について,コミュニケーションの認知理論を適用した。
論文 参考訳(メタデータ) (2024-09-20T13:48:48Z) - Voice Conversion for Stuttered Speech, Instruments, Unseen Languages and
Textually Described Voices [28.998590651956153]
そこで本研究では, 音声変換, 言語間変換, 楽器変換, テキスト・ツー・ボイス変換の4つの非標準的応用について検討する。
kNN-VCは,声質変換や言語間変換において高い性能を維持していることがわかった。
楽器とテキスト・ツー・ボイス・コンバージョン・タスクでは、より複雑な結果が得られる。
論文 参考訳(メタデータ) (2023-10-12T08:00:25Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Speak Like a Dog: Human to Non-human creature Voice Conversion [19.703397078178]
H2NH-VCは、人間の発話を人間以外の生物のような音声に変換することを目的としている。
本研究では,「犬のように話す」タスクの可能性と特徴を明らかにするために,比較実験を行った。
変換音声は, 平均評価スコアを用いて評価された: 犬の類似性, 音質, 知性, 文字誤り率(CER)
論文 参考訳(メタデータ) (2022-06-09T22:10:43Z) - Vocalsound: A Dataset for Improving Human Vocal Sounds Recognition [13.373579620368046]
VocalSoundのデータセットは、21,000件以上のクラウドソースによる笑い声、うさぎ声、うなり声、喉のクリアリング、くしゃみ、嗅ぎ声の録音で構成されています。
実験の結果,既存のデータセットにVocalSoundデータセットを追加することで,モデルの音声認識性能を41.9%向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-06T18:08:18Z) - VoViT: Low Latency Graph-based Audio-Visual Voice Separation Transformer [4.167459103689587]
本稿では,音声分離のための音声-視覚的アプローチを提案する。
音声と歌声の2つのシナリオにおいて、最先端の手法を低レイテンシで上回る。
論文 参考訳(メタデータ) (2022-03-08T14:08:47Z) - Toward Degradation-Robust Voice Conversion [94.60503904292916]
あらゆる音声変換技術は、発話の発声音を訓練中に見つからないあらゆる話者に変換する。
話者の清潔な発話を収集することは困難であり、通常はノイズや残響によって劣化する。
本稿では,任意の音声変換の頑健性の劣化に関する総合的研究を報告する。
論文 参考訳(メタデータ) (2021-10-14T17:00:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。