論文の概要: Speech to Speech Synthesis for Voice Impersonation
- arxiv url: http://arxiv.org/abs/2602.16721v1
- Date: Fri, 13 Feb 2026 01:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.245767
- Title: Speech to Speech Synthesis for Voice Impersonation
- Title(参考訳): 音声対話のための音声合成
- Authors: Bjorn Johnson, Jared Levy,
- Abstract要約: 本稿では,音声合成ネットワーク(STSSN)を提案する。
提案モデルは非常に強力であり,現実的な音声サンプルの生成に成功していることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Numerous models have shown great success in the fields of speech recognition as well as speech synthesis, but models for speech to speech processing have not been heavily explored. We propose Speech to Speech Synthesis Network (STSSN), a model based on current state of the art systems that fuses the two disciplines in order to perform effective speech to speech style transfer for the purpose of voice impersonation. We show that our proposed model is quite powerful, and succeeds in generating realistic audio samples despite a number of drawbacks in its capacity. We benchmark our proposed model by comparing it with a generative adversarial model which accomplishes a similar task, and show that ours produces more convincing results.
- Abstract(参考訳): 音声認識や音声合成の分野では数多くのモデルが大きな成功を収めてきたが、音声から音声への処理のモデルはあまり研究されていない。
本研究では,現在最先端システムに基づく音声合成ネットワーク (STSSN) を提案する。
提案モデルは非常に強力であり,多くの欠点があるにもかかわらず,現実的なオーディオサンプルの生成に成功していることを示す。
提案手法を,同様の課題を遂行する生成的逆数モデルと比較し,より説得力のある結果が得られることを示す。
関連論文リスト
- Alternating Approach-Putt Models for Multi-Stage Speech Enhancement [2.5016653845378722]
本稿では,音声強調モデルによって導入されたアーティファクトの軽減を目的とした後処理ニューラルネットワークを提案する。
本研究では,音声強調モデルと提案したPuttモデルとの交互性により,音声品質が向上することが実証された。
論文 参考訳(メタデータ) (2025-08-14T08:18:42Z) - Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。
クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。
以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文 参考訳(メタデータ) (2024-10-07T18:39:59Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。
注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文 参考訳(メタデータ) (2024-04-03T09:17:38Z) - uSee: Unified Speech Enhancement and Editing with Conditional Diffusion
Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。
実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-02T04:36:39Z) - SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。
実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文 参考訳(メタデータ) (2023-08-14T01:01:19Z) - Self-Supervised Representation Learning for Speech Using Visual
Grounding and Masked Language Modeling [13.956691231452336]
FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。
FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。
我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
論文 参考訳(メタデータ) (2022-02-07T22:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。