論文の概要: Guided Generative Adversarial Neural Network for Representation Learning
and High Fidelity Audio Generation using Fewer Labelled Audio Data
- arxiv url: http://arxiv.org/abs/2003.02836v2
- Date: Mon, 1 Jun 2020 12:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-26 06:50:15.170090
- Title: Guided Generative Adversarial Neural Network for Representation Learning
and High Fidelity Audio Generation using Fewer Labelled Audio Data
- Title(参考訳): 低遅延音声データを用いた表現学習と高忠実度音声生成のための誘導逆ニューラルネットワーク
- Authors: Kazi Nazmul Haque, Rajib Rana, John H. L. Hansen, Bj\"orn Schuller
- Abstract要約: GAN(Generative Adversarial Neural Networks)の最近の改良は、高品質なサンプルを生成する能力を示している。
GANをベースとした表現学習手法の多くは,利用後のシナリオを無視した表現を学習する。
本稿では,新たなGANフレームワークであるGGAN(Guid Generative Neural Network)を提案する。
- 参考スコア(独自算出の注目度): 31.00018800567942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent improvements in Generative Adversarial Neural Networks (GANs) have
shown their ability to generate higher quality samples as well as to learn good
representations for transfer learning. Most of the representation learning
methods based on GANs learn representations ignoring their post-use scenario,
which can lead to increased generalisation ability. However, the model can
become redundant if it is intended for a specific task. For example, assume we
have a vast unlabelled audio dataset, and we want to learn a representation
from this dataset so that it can be used to improve the emotion recognition
performance of a small labelled audio dataset. During the representation
learning training, if the model does not know the post emotion recognition
task, it can completely ignore emotion-related characteristics in the learnt
representation. This is a fundamental challenge for any unsupervised
representation learning model. In this paper, we aim to address this challenge
by proposing a novel GAN framework: Guided Generative Neural Network (GGAN),
which guides a GAN to focus on learning desired representations and generating
superior quality samples for audio data leveraging fewer labelled samples.
Experimental results show that using a very small amount of labelled data as
guidance, a GGAN learns significantly better representations.
- Abstract(参考訳): GAN(Generative Adversarial Neural Networks)の最近の改良は、高品質なサンプルを生成するだけでなく、転送学習のための優れた表現を学ぶ能力を示している。
ganに基づく表現学習手法のほとんどは、使用後のシナリオを無視して表現を学習し、一般化能力の向上につながる可能性がある。
しかし、特定のタスクを意図していれば、モデルは冗長になる可能性がある。
例えば、大きな未ラベルのオーディオデータセットがあると仮定し、このデータセットから表現を学び、小さなラベル付きオーディオデータセットの感情認識性能を向上させるために使用したいと思っています。
表現学習訓練中、モデルがポスト感情認識タスクを知らない場合、学習表現における感情関連特性を完全に無視することができる。
これは教師なし表現学習モデルにとって基本的な課題である。
本稿では,新たなGANフレームワークであるガイド生成ニューラルネットワーク(GGAN)を提案することにより,この課題に対処することを目的とする。
実験結果から,ごく少量のラベル付きデータをガイダンスとして用いることで,GANはより優れた表現を学習することがわかった。
関連論文リスト
- Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers [6.002503434201551]
大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T08:39:12Z) - High Fidelity Visualization of What Your Self-Supervised Representation
Knows About [22.982471878833362]
本研究では,条件拡散に基づく生成モデル(RCDM)を用いて,自己教師付きモデルを用いて学習した表現を可視化する。
このモデルの生成品質は、条件付けとして使われる表現に忠実でありながら、最先端の生成モデルとどのように同等かを示す。
論文 参考訳(メタデータ) (2021-12-16T19:23:33Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z) - Curious Representation Learning for Embodied Intelligence [81.21764276106924]
近年,自己指導型表現学習は顕著な成功を収めている。
しかし、真にインテリジェントなエージェントを構築するためには、環境から学習できる表現学習アルゴリズムを構築する必要がある。
本稿では,強化学習方針と視覚的表現モデルを同時に学習する,好奇心をそそる表現学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:59:20Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - COALA: Co-Aligned Autoencoders for Learning Semantically Enriched Audio
Representations [32.456824945999465]
本稿では,学習した音声とその関連タグの潜在表現を調整し,音声表現を学習する手法を提案する。
組込みモデルの性能評価を行い,その性能を3つの異なるタスクにおける特徴抽出器として評価した。
論文 参考訳(メタデータ) (2020-06-15T13:17:18Z) - High-Fidelity Audio Generation and Representation Learning with Guided
Adversarial Autoencoder [2.6770746621108654]
GAAE(Guided Adversarial Autoencoder)と呼ばれる新しいオートエンコーダモデルを提案する。
提案モデルでは,実際の音響サンプルと区別できない品質の音声を生成できる。
論文 参考訳(メタデータ) (2020-06-01T12:19:32Z) - Learning What Makes a Difference from Counterfactual Examples and
Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。
我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。
このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2020-04-20T02:47:49Z) - Laplacian Denoising Autoencoder [114.21219514831343]
本稿では,新しいタイプの自動符号化器を用いてデータ表現を学習することを提案する。
勾配領域における潜伏クリーンデータを破損させて雑音入力データを生成する。
いくつかのビジュアルベンチマークの実験では、提案されたアプローチでより良い表現が学べることが示されている。
論文 参考訳(メタデータ) (2020-03-30T16:52:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。