論文の概要: VQCPC-GAN: Variable-length Adversarial Audio Synthesis using
Vector-Quantized Contrastive Predictive Coding
- arxiv url: http://arxiv.org/abs/2105.01531v1
- Date: Tue, 4 May 2021 14:35:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-05 15:04:34.968919
- Title: VQCPC-GAN: Variable-length Adversarial Audio Synthesis using
Vector-Quantized Contrastive Predictive Coding
- Title(参考訳): VQCPC-GAN:ベクトル量子化コントラスト予測符号化を用いた可変長逆音声合成
- Authors: Javier Nistal, Cyran Aouameur, Stefan Lattner, and Ga\"el Richard
- Abstract要約: 本稿では,可変長音声合成フレームワークvq cpc-ganを提案する。
実オーディオデータから抽出されたVQ CPCトークンのシーケンスは、GANアーキテクチャへの条件入力として機能する。
提案モデルは, 多様な指標群と, 各種の強力なベースラインを比較して評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Influenced by the field of Computer Vision, Generative Adversarial Networks
(GANs) are often adopted for the audio domain using fixed-size two-dimensional
spectrogram representations as the "image data". However, in the (musical)
audio domain, it is often desired to generate output of variable duration. This
paper presents VQCPC-GAN, an adversarial framework for synthesizing
variable-length audio by exploiting Vector-Quantized Contrastive Predictive
Coding (VQCPC). A sequence of VQCPC tokens extracted from real audio data
serves as conditional input to a GAN architecture, providing step-wise
time-dependent features of the generated content. The input noise z
(characteristic in adversarial architectures) remains fixed over time, ensuring
temporal consistency of global features. We evaluate the proposed model by
comparing a diverse set of metrics against various strong baselines. Results
show that, even though the baselines score best, VQCPC-GAN achieves comparable
performance even when generating variable-length audio. Numerous sound examples
are provided in the accompanying website, and we release the code for
reproducibility.
- Abstract(参考訳): コンピュータビジョンの分野の影響を受け、GAN(Generative Adversarial Networks)は、固定サイズの2次元スペクトログラム表現を「画像データ」として、しばしばオーディオ領域に採用される。
しかし、(音楽的な)オーディオ領域では、可変期間の出力を生成することが望まれる。
本稿では,Vector-Quantized Contrastive Predictive Coding (VQCPC) を利用した可変長音声の合成フレームワークであるVQCPC-GANを提案する。
実オーディオデータから抽出されたvqcpcトークンのシーケンスはganアーキテクチャの条件入力となり、生成されたコンテンツのステップ毎の時間依存特性を提供する。
入力ノイズz(adversarial architecturesの特徴)は時間とともに固定され、グローバルな特徴の時間的一貫性が保証される。
提案手法は,様々な指標を各種の強い基準値と比較することにより評価する。
その結果,VQCPC-GANは可変長音声を生成しても同等の性能を発揮することがわかった。
付随するウェブサイトで多数の音響サンプルが提供され、再現性のためのコードをリリースする。
関連論文リスト
- VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。
以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文 参考訳(メタデータ) (2024-11-22T00:21:39Z) - Machine Learning Framework for Audio-Based Content Evaluation using MFCC, Chroma, Spectral Contrast, and Temporal Feature Engineering [0.0]
そこで本研究では,YouTube上の音楽カバーの音声サンプルと,オリジナル曲の音声とユーザコメントからの感情スコアを含むデータセットを構築した。
我々のアプローチは、広範囲な事前処理、音声信号を30秒のウィンドウに分割し、高次元の特徴表現を抽出することである。
回帰モデルを用いて感情スコアを0-100スケールで予測し,それぞれ3.420,5.482,2.783,4.212の根平均二乗誤差(RMSE)値を達成する。
論文 参考訳(メタデータ) (2024-10-31T20:26:26Z) - VQ-CTAP: Cross-Modal Fine-Grained Sequence Representation Learning for Speech Processing [81.32613443072441]
テキスト音声(TTS)、音声変換(VC)、自動音声認識(ASR)などのタスクでは、クロスモーダルな粒度(フレームレベル)シーケンス表現が望まれる。
本稿では,テキストと音声を共同空間に組み込むために,クロスモーダルシーケンストランスコーダを用いた量子コントラスト・トーケン・音響事前学習(VQ-CTAP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-11T12:24:23Z) - Locality-Aware Generalizable Implicit Neural Representation [54.93702310461174]
一般化可能な暗黙的ニューラル表現(INR)は、単一の連続関数が複数のデータインスタンスを表現することを可能にする。
本稿では、変換器エンコーダと局所性を考慮したINRデコーダを組み合わせた一般化可能なINRのための新しいフレームワークを提案する。
我々のフレームワークは、従来の一般化可能なINRよりも大幅に優れており、下流タスクにおける局所性を考慮した潜在能力の有効性を検証している。
論文 参考訳(メタデータ) (2023-10-09T11:26:58Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Visually-Guided Sound Source Separation with Audio-Visual Predictive
Coding [57.08832099075793]
視覚誘導音源分離は、視覚特徴抽出、マルチモーダル特徴融合、音響信号処理の3つの部分からなる。
本稿では,この課題をパラメータ調和とより効果的な方法で解決するために,AVPC(Audio-visual predictive coding)を提案する。
さらに、同一音源の2つの音声視覚表現を共予測することにより、AVPCのための効果的な自己教師型学習戦略を開発する。
論文 参考訳(メタデータ) (2023-06-19T03:10:57Z) - Taming Visually Guided Sound Generation [21.397106355171946]
近年の視覚誘発音声生成の進歩は,短音,低忠実音,一級音のサンプリングに基づいている。
本稿では,オープンドメインビデオから一組のフレームで誘導される高忠実度音を,単一のGPUで再生するよりも少ない時間で生成できる単一モデルを提案する。
論文 参考訳(メタデータ) (2021-10-17T11:14:00Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。