論文の概要: The IMS Toucan System for the Blizzard Challenge 2023
- arxiv url: http://arxiv.org/abs/2310.17499v1
- Date: Thu, 26 Oct 2023 15:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:38:39.974832
- Title: The IMS Toucan System for the Blizzard Challenge 2023
- Title(参考訳): blizzard challenge 2023のためのims toucanシステム
- Authors: Florian Lux, Julia Koch, Sarina Meyer, Thomas Bott, Nadja Schauffler,
Pavel Denisov, Antje Schweitzer, Ngoc Thang Vu
- Abstract要約: Blizzard Challenge 2023へのコントリビューションのため、Blizzard Challenge 2021に提出したシステムを改善しました。
提案手法は,フランス語におけるホモグラフの規則に基づく曖昧さを含む,規則に基づく音素間テキスト処理システムである。
最新の最先端アプローチを組み合わせたGANベースのニューラルボコーダは、スペクトログラムを最終波に変換する。
- 参考スコア(独自算出の注目度): 25.460791056978895
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For our contribution to the Blizzard Challenge 2023, we improved on the
system we submitted to the Blizzard Challenge 2021. Our approach entails a
rule-based text-to-phoneme processing system that includes rule-based
disambiguation of homographs in the French language. It then transforms the
phonemes to spectrograms as intermediate representations using a fast and
efficient non-autoregressive synthesis architecture based on Conformer and
Glow. A GAN based neural vocoder that combines recent state-of-the-art
approaches converts the spectrogram to the final wave. We carefully designed
the data processing, training, and inference procedures for the challenge data.
Our system identifier is G. Open source code and demo are available.
- Abstract(参考訳): Blizzard Challenge 2023への貢献のため、Blizzard Challenge 2021に提出したシステムを改善しました。
提案手法は,フランス語におけるホモグラフの規則に基づく曖昧さを含む,規則に基づく音素間テキスト処理システムである。
次に、コンフォーマーとグローに基づく高速で効率的な非自己回帰合成アーキテクチャを用いて、音素を中間表現としてスペクトルに変換する。
最新の最先端アプローチを組み合わせたGANベースのニューラルボコーダは、スペクトログラムを最終波に変換する。
我々は,課題データに対するデータ処理,トレーニング,推論手順を慎重に設計した。
我々のシステム識別子はGです。オープンソースコードとデモが利用可能です。
関連論文リスト
- Autoregressive Large Language Models are Computationally Universal [59.34397993748194]
変換器に基づく言語モデルの自己回帰復号化により,普遍計算が実現可能であることを示す。
まず、2027年の生産規則を持つラグシステムにより、普遍チューリングマシンをシミュレートできることを示す。
我々は、チャーチ・チューリングの論文により、拡張自己回帰(greedy)復号化によるgemini-1.5-pro-001が汎用コンピュータであると結論付けた。
論文 参考訳(メタデータ) (2024-10-04T06:05:17Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - The FruitShell French synthesis system at the Blizzard 2023 Challenge [12.459890525109646]
本稿では,Blizzard Challenge 2023のためのフランス語音声合成システムを提案する。
この課題は、女性話者から高品質な音声を生成することと、特定の個人によく似た音声を生成することの2つのタスクから構成される。
論文 参考訳(メタデータ) (2023-09-01T02:56:20Z) - Text-Driven Foley Sound Generation With Latent Diffusion Model [33.4636070590045]
Foley Sound Generationは、マルチメディアコンテンツのための背景音を合成することを目的としている。
テキスト条件によるフォリー音声生成のための拡散モデルに基づくシステムを提案する。
論文 参考訳(メタデータ) (2023-06-17T14:16:24Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - The ReprGesture entry to the GENEA Challenge 2022 [8.081712389287903]
本稿では,2022年における非言語的エージェント(GENEA)のための行動生成と評価のためのReprGestureの取り組みについて述べる。
GENEAチャレンジは、処理されたデータセットを提供し、さまざまなジェスチャー生成システムのパフォーマンスを比較するためにクラウドソースによる評価を行う。
論文 参考訳(メタデータ) (2022-08-25T14:50:50Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - BCN2BRNO: ASR System Fusion for Albayzin 2020 Speech to Text Challenge [2.675158177232256]
本稿では,BUTとTelef'onicaによる音声認識システムの開発における共同研究について述べる。
ハイブリッドモデルとエンドツーエンドモデルの両方に基づいたアプローチを比較する。
最高のシステムの融合は、アルバイジン2020の公式評価で23.33%のWERを達成した。
論文 参考訳(メタデータ) (2021-01-29T18:40:54Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Transformer VQ-VAE for Unsupervised Unit Discovery and Speech Synthesis:
ZeroSpeech 2020 Challenge [27.314082075933197]
ZeroSpeech 2020の課題は、テキスト情報や音声ラベルを使わずにスピーチを構築することだ。
本研究では,(1)音声を与えられた場合,(2)教師なしの方法でサブワード単位を抽出し,(2)新規話者から音声を再合成する,という2つの主要コンポーネントに対処しなければならないシステムを構築した。
ここでは、教師なし単位探索のためのTransformer-based VQ-VAEと、抽出したコードブックから音声合成のためのTransformer-based inverterを提案する。
論文 参考訳(メタデータ) (2020-05-24T07:42:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。