論文の概要: The MSXF TTS System for ICASSP 2022 ADD Challenge
- arxiv url: http://arxiv.org/abs/2201.11400v1
- Date: Thu, 27 Jan 2022 09:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 22:16:42.295974
- Title: The MSXF TTS System for ICASSP 2022 ADD Challenge
- Title(参考訳): ICASSP 2022 ADDチャレンジのためのMSXF TTSシステム
- Authors: Chunyong Yang, Pengfei Liu, Yanli Chen, Hongbin Wang, Min Liu
- Abstract要約: 本稿では,Audio Deep Synthesis Detection (ADD) Challenge 2022のタスク3.1のためのMSXF TTSシステムについて述べる。
エンド・ツー・エンドのテキストを音声システムに使用し、訓練段階において制約損失をシステムに追加する。
当社のチームはC2と認識されており、チャレンジで4位を獲得しました。
- 参考スコア(独自算出の注目度): 24.5115892610315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents our MSXF TTS system for Task 3.1 of the Audio Deep
Synthesis Detection (ADD) Challenge 2022. We use an end to end text to speech
system, and add a constraint loss to the system when training stage. The end to
end TTS system is VITS, and the pre-training self-supervised model is wav2vec
2.0. And we also explore the influence of the speech speed and volume in
spoofing. The faster speech means the less the silence part in audio, the
easier to fool the detector. We also find the smaller the volume, the better
spoofing ability, though we normalize volume for submission. Our team is
identified as C2, and we got the fourth place in the challenge.
- Abstract(参考訳): 本稿では,Audio Deep Synthesis Detection (ADD) Challenge 2022のタスク3.1におけるMSXF TTSシステムについて述べる。
エンド・ツー・エンドのテキストを音声システムに使用し、訓練段階において制約損失をシステムに追加する。
エンドツーエンドのTSSシステムはVITSであり、事前訓練された自己管理モデルはwav2vec 2.0である。
また,スプーフィングにおける発話速度と音量の影響についても検討する。
より速い音声は、音声の沈黙部分が少ないほど、検出器を騙しやすくする。
ボリュームも小さくなり、スプーフィング能力も向上していますが、提出のボリュームは正規化しています。
当社のチームはC2と認識されており、チャレンジで4位を獲得しました。
関連論文リスト
- TransFace: Unit-Based Audio-Visual Speech Synthesizer for Talking Head
Translation [54.155138561698514]
音声から音声への直接翻訳は、自己教師付き学習から得られる離散単位を導入することにより、高品質な結果が得られる。
既存の方法は常にカスケードに依存し、音声とテキストの両方を通して合成し、遅延やカスケードエラーを引き起こす。
本稿では,音声-視覚音声を他の言語で直接音声-視覚音声に翻訳できる,頭部翻訳モデルである textbfTransFace を提案する。
論文 参考訳(メタデータ) (2023-12-23T08:45:57Z) - The FruitShell French synthesis system at the Blizzard 2023 Challenge [12.459890525109646]
本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-09-01T02:56:20Z) - OxfordVGG Submission to the EGO4D AV Transcription Challenge [81.13727731938582]
本報告では,OxfordVG チームによる EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 の提出の技術的詳細について述べる。
本稿では,WhisperXについて述べる。WhisperXは,単語レベルの時間的アライメントを持つ長音の音声の効率的な書き起こしシステムであり,また2つのテキスト正規化器を公開している。
最終提出書では、挑戦テストセットでワードエラー率(WER)の56.2%を獲得し、リーダーボードで1位にランクインした。
論文 参考訳(メタデータ) (2023-07-18T06:48:39Z) - A Study on the Integration of Pipeline and E2E SLU systems for Spoken
Semantic Parsing toward STOP Quality Challenge [33.89616011003973]
本稿では,音声言語理解グランドチャレンジにおける品質トラック(トラック1)のための音声意味解析システムについて述べる。
Whisperのような強自動音声認識(ASR)モデルとBARTのような事前訓練言語モデル(LM)は、我々のSLUフレームワーク内で利用され、性能が向上する。
また,各モデルの出力レベルの組み合わせについて,精度80.8の精度で検討し,第1位を獲得した。
論文 参考訳(メタデータ) (2023-05-02T17:25:19Z) - Enhancing Speech-to-Speech Translation with Multiple TTS Targets [62.18395387305803]
直接S2STモデルに対する合成対象音声の変更の効果を解析する。
異なるTSシステムから複数のターゲットを持つS2STシステムを協調的に最適化するマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-10T14:33:33Z) - ADD 2022: the First Audio Deep Synthesis Detection Challenge [92.41777858637556]
最初のオーディオディープ合成検出チャレンジ(ADD)は、ギャップを埋めるために動機付けられた。
ADD 2022には、低品質の偽オーディオ検出(LF)、部分的に偽オーディオ検出(PF)、オーディオ偽ゲーム(FG)の3つのトラックが含まれている。
論文 参考訳(メタデータ) (2022-02-17T03:29:20Z) - Partially Fake Audio Detection by Self-attention-based Fake Span
Discovery [89.21979663248007]
本稿では,部分的に偽の音声を検出する自己認識機構を備えた質問応答(フェイクスパン発見)戦略を導入することで,新たな枠組みを提案する。
ADD 2022の部分的に偽の音声検出トラックで第2位にランクインした。
論文 参考訳(メタデータ) (2022-02-14T13:20:55Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z) - Transformer VQ-VAE for Unsupervised Unit Discovery and Speech Synthesis:
ZeroSpeech 2020 Challenge [27.314082075933197]
ZeroSpeech 2020の課題は、テキスト情報や音声ラベルを使わずにスピーチを構築することだ。
本研究では,(1)音声を与えられた場合,(2)教師なしの方法でサブワード単位を抽出し,(2)新規話者から音声を再合成する,という2つの主要コンポーネントに対処しなければならないシステムを構築した。
ここでは、教師なし単位探索のためのTransformer-based VQ-VAEと、抽出したコードブックから音声合成のためのTransformer-based inverterを提案する。
論文 参考訳(メタデータ) (2020-05-24T07:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。