論文の概要: High-Fidelity Audio Generation and Representation Learning with Guided
Adversarial Autoencoder
- arxiv url: http://arxiv.org/abs/2006.00877v2
- Date: Sat, 17 Oct 2020 12:53:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 06:41:22.381755
- Title: High-Fidelity Audio Generation and Representation Learning with Guided
Adversarial Autoencoder
- Title(参考訳): 誘導型adversarial autoencoderを用いた高忠実度音声生成と表現学習
- Authors: Kazi Nazmul Haque, Rajib Rana, Bj\"orn W Schuller
- Abstract要約: GAAE(Guided Adversarial Autoencoder)と呼ばれる新しいオートエンコーダモデルを提案する。
提案モデルでは,実際の音響サンプルと区別できない品質の音声を生成できる。
- 参考スコア(独自算出の注目度): 2.6770746621108654
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised disentangled representation learning from the unlabelled audio
data, and high fidelity audio generation have become two linchpins in the
machine learning research fields. However, the representation learned from an
unsupervised setting does not guarantee its' usability for any downstream task
at hand, which can be a wastage of the resources, if the training was conducted
for that particular posterior job. Also, during the representation learning, if
the model is highly biased towards the downstream task, it losses its
generalisation capability which directly benefits the downstream job but the
ability to scale it to other related task is lost. Therefore, to fill this gap,
we propose a new autoencoder based model named "Guided Adversarial Autoencoder
(GAAE)", which can learn both post-task-specific representations and the
general representation capturing the factors of variation in the training data
leveraging a small percentage of labelled samples; thus, makes it suitable for
future related tasks. Furthermore, our proposed model can generate audio with
superior quality, which is indistinguishable from the real audio samples.
Hence, with the extensive experimental results, we have demonstrated that by
harnessing the power of the high-fidelity audio generation, the proposed GAAE
model can learn powerful representation from unlabelled dataset leveraging a
fewer percentage of labelled data as supervision/guidance.
- Abstract(参考訳): 機械学習研究分野において, 教師なし不整合表現学習と高忠実度音声生成が2つのリンチピンとなった。
しかし、教師なしの設定から学んだ表現は、その特定の後の仕事のために訓練が行われた場合、そのリソースの無駄遣いになり得る、手元にあるダウンストリームタスクのユーザビリティを保証するものではない。
また、表現学習中に、モデルが下流タスクに対して非常に偏りがある場合、下流ジョブに直接利益をもたらす一般化能力を失うが、他の関連するタスクにスケールする能力は失われる。
そこで本研究では,このギャップを埋めるために,後タスク固有の表現と,ラベル付きサンプルのごく一部を活用したトレーニングデータの変動要因を捉える汎用表現の両方を学習できる「guided adversarial autoencoder(gaae)」という新しい自動エンコーダモデルを提案する。
さらに,提案モデルでは,実際の音響サンプルと区別できない品質の音声を生成することができる。
その結果,高忠実度音声生成のパワーを活用することで,GAAEモデルでは,ラベル付きデータの少ないパーセンテージを監督/ガイダンスとして活用して,ラベル付きデータセットから強力な表現を学習できることが実証された。
関連論文リスト
- Training-Free Deepfake Voice Recognition by Leveraging Large-Scale Pre-Trained Models [52.04189118767758]
一般化は、現在のオーディオディープフェイク検出器の主な問題である。
本稿では,オーディオディープフェイク検出のための大規模事前学習モデルの可能性について検討する。
論文 参考訳(メタデータ) (2024-05-03T15:27:11Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers [6.002503434201551]
大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T08:39:12Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - BYOL-S: Learning Self-supervised Speech Representations by Bootstrapping [19.071463356974387]
この研究は、ブートストラップによる自己教師型学習に基づく既存の手法を拡張し、様々なエンコーダアーキテクチャを提案し、異なる事前学習データセットを使用することの効果を探る。
本稿では,手工芸とデータ駆動型学習音声機能を組み合わせたハイブリッド音声表現を提案する。
提案したすべての表現は、聴覚シーン分類とタイムスタンプ検出タスクのためのHEAR NeurIPS 2021チャレンジで評価された。
論文 参考訳(メタデータ) (2022-06-24T02:26:40Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z) - Guided Generative Adversarial Neural Network for Representation Learning
and High Fidelity Audio Generation using Fewer Labelled Audio Data [31.00018800567942]
GAN(Generative Adversarial Neural Networks)の最近の改良は、高品質なサンプルを生成する能力を示している。
GANをベースとした表現学習手法の多くは,利用後のシナリオを無視した表現を学習する。
本稿では,新たなGANフレームワークであるGGAN(Guid Generative Neural Network)を提案する。
論文 参考訳(メタデータ) (2020-03-05T11:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。