Fugu-MT 論文翻訳(概要): Speech to Speech Synthesis for Voice Impersonation

論文の概要: Speech to Speech Synthesis for Voice Impersonation

arxiv url: http://arxiv.org/abs/2602.16721v1
Date: Fri, 13 Feb 2026 01:22:25 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-20 15:21:28.245767
Title: Speech to Speech Synthesis for Voice Impersonation
Title（参考訳）: 音声対話のための音声合成
Authors: Bjorn Johnson, Jared Levy,
Abstract要約: 本稿では,音声合成ネットワーク(STSSN)を提案する。提案モデルは非常に強力であり,現実的な音声サンプルの生成に成功していることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Numerous models have shown great success in the fields of speech recognition as well as speech synthesis, but models for speech to speech processing have not been heavily explored. We propose Speech to Speech Synthesis Network (STSSN), a model based on current state of the art systems that fuses the two disciplines in order to perform effective speech to speech style transfer for the purpose of voice impersonation. We show that our proposed model is quite powerful, and succeeds in generating realistic audio samples despite a number of drawbacks in its capacity. We benchmark our proposed model by comparing it with a generative adversarial model which accomplishes a similar task, and show that ours produces more convincing results.
Abstract（参考訳）: 音声認識や音声合成の分野では数多くのモデルが大きな成功を収めてきたが、音声から音声への処理のモデルはあまり研究されていない。本研究では,現在最先端システムに基づく音声合成ネットワーク (STSSN) を提案する。提案モデルは非常に強力であり,多くの欠点があるにもかかわらず,現実的なオーディオサンプルの生成に成功していることを示す。提案手法を,同様の課題を遂行する生成的逆数モデルと比較し,より説得力のある結果が得られることを示す。

関連論文リスト

Alternating Approach-Putt Models for Multi-Stage Speech Enhancement [2.5016653845378722]
本稿では,音声強調モデルによって導入されたアーティファクトの軽減を目的とした後処理ニューラルネットワークを提案する。本研究では,音声強調モデルと提案したPuttモデルとの交互性により,音声品質が向上することが実証された。
論文参考訳（メタデータ） (2025-08-14T08:18:42Z)
Incorporating Talker Identity Aids With Improving Speech Recognition in Adversarial Environments [0.2916558661202724]
音声認識と話者識別を共同で行うトランスフォーマーモデルを開発した。クリーンな条件下では,ジョイントモデルがWhisperと相容れない性能を示す。以上の結果から,音声認識と音声表現の統合により,対向条件下ではより堅牢なモデルが得られる可能性が示唆された。
論文参考訳（メタデータ） (2024-10-07T18:39:59Z)
TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文参考訳（メタデータ） (2024-05-28T04:11:37Z)
Leveraging the Interplay Between Syntactic and Acoustic Cues for Optimizing Korean TTS Pause Formation [6.225927189801006]
本稿では,パジングパターンに関連する構文的手法と音響的手法の両方を包括的にモデル化する新しい枠組みを提案する。注目に値することに、我々のフレームワークは、より拡張され複雑なドメイン外文(OOD)であっても、自然言語を一貫して生成する能力を持っている。
論文参考訳（メタデータ） (2024-04-03T09:17:38Z)
uSee: Unified Speech Enhancement and Editing with Conditional Diffusion Models [57.71199494492223]
本稿では,条件付き拡散モデルを用いた統一音声強調編集(uSee)モデルを提案する。実験の結果,提案したuSeeモデルは,他の生成的音声強調モデルと比較して,発声および発声の双方において優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2023-10-02T04:36:39Z)
TokenSplit: Using Discrete Speech Representations for Direct, Refined, and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文参考訳（メタデータ） (2023-08-21T01:52:01Z)
SpeechX: Neural Codec Language Model as a Versatile Speech Transformer [57.82364057872905]
SpeechX は、ゼロショット TTS と様々な音声変換タスクが可能な汎用音声生成モデルである。実験結果から, ゼロショットTS, ノイズ抑制, ターゲット話者抽出, 音声除去, 背景雑音の有無による音声編集など, 各種タスクにおけるSpeechXの有効性が示された。
論文参考訳（メタデータ） (2023-08-14T01:01:19Z)
The Ability of Self-Supervised Speech Models for Audio Representations [53.19715501273934]
自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めた。我々は、最先端のSSL音声モデルの表現能力を評価するために、豊富な音声および非音声音声データセットに関する広範な実験を行う。結果から、SSL音声モデルは幅広い非音声音声の有意義な特徴を抽出できるが、特定の種類のデータセットではフェールする可能性があることが示された。
論文参考訳（メタデータ） (2022-09-26T15:21:06Z)
Self-Supervised Representation Learning for Speech Using Visual Grounding and Masked Language Modeling [13.956691231452336]
FaST-VGSはトランスフォーマーをベースとしたモデルで、生音声波形と意味論的関連画像の関連付けを学習する。 FaST-VGS+は、マスク付き言語モデリングの目的を持つマルチタスク方式で学習される。我々のモデルはABXタスク上で競合的に動作し、SyntacticおよびSemanticタスクにおける他のコンカレントサブミッションよりも優れており、Lexicalタスクにおける最高のシステムとほぼ一致していることを示す。
論文参考訳（メタデータ） (2022-02-07T22:09:54Z)
Meta-StyleSpeech : Multi-Speaker Adaptive Text-to-Speech Generation [63.561944239071615]
StyleSpeechは、高品質な音声を合成し、新しい話者に適応する新しいTSモデルである。 SALNでは、単一音声音声からでもターゲット話者のスタイルで音声を効果的に合成する。提案手法をMeta-StyleSpeechに拡張するには,スタイルプロトタイプで訓練された2つの識別器を導入し,エピソード訓練を行う。
論文参考訳（メタデータ） (2021-06-06T15:34:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。