論文の概要: Autodecompose: A generative self-supervised model for semantic
decomposition
- arxiv url: http://arxiv.org/abs/2302.03124v1
- Date: Mon, 6 Feb 2023 21:18:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 18:13:18.578994
- Title: Autodecompose: A generative self-supervised model for semantic
decomposition
- Title(参考訳): autodecompose:意味分解のための生成的自己教師付きモデル
- Authors: Mohammad Reza Bonyadi
- Abstract要約: AutoDecomposeは、データを2つの意味的に独立した性質に分解する自己教師型生成モデルである。
音声信号にAuto Decomposeを適用し、音源(人間の声)とコンテンツを符号化する。
大規模なモデルが小さなデータセットで事前トレーニングされている場合でも,Autodecomposeはオーバーフィッティングに対して堅牢であることを示す。
- 参考スコア(独自算出の注目度): 1.5990720051907859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Autodecompose, a novel self-supervised generative model that
decomposes data into two semantically independent properties: the desired
property, which captures a specific aspect of the data (e.g. the voice in an
audio signal), and the context property, which aggregates all other information
(e.g. the content of the audio signal), without any labels given. Autodecompose
uses two complementary augmentations, one that manipulates the context while
preserving the desired property and the other that manipulates the desired
property while preserving the context. The augmented variants of the data are
encoded by two encoders and reconstructed by a decoder. We prove that one of
the encoders embeds the desired property while the other embeds the context
property. We apply Autodecompose to audio signals to encode sound source (human
voice) and content. We pre-trained the model on YouTube and LibriSpeech
datasets and fine-tuned in a self-supervised manner without exposing the
labels. Our results showed that, using the sound source encoder of pre-trained
Autodecompose, a linear classifier achieves F1 score of 97.6\% in recognizing
the voice of 30 speakers using only 10 seconds of labeled samples, compared to
95.7\% for supervised models. Additionally, our experiments showed that
Autodecompose is robust against overfitting even when a large model is
pre-trained on a small dataset. A large Autodecompose model was pre-trained
from scratch on 60 seconds of audio from 3 speakers achieved over 98.5\% F1
score in recognizing those three speakers in other unseen utterances. We
finally show that the context encoder embeds information about the content of
the speech and ignores the sound source information.
Our sample code for training the model, as well as examples for using the
pre-trained models are available here:
\url{https://github.com/rezabonyadi/autodecompose}
- Abstract(参考訳): 本稿では、データの特定の側面(例えば、音声信号の音声)をキャプチャする所望のプロパティと、他のすべての情報(例えば、音声信号の内容)をラベルなしで集約するコンテキストプロパティという、2つの意味論的独立性にデータを分解する新しい自己教師型生成モデルであるAutodecomposeを紹介する。
Autodecomposeは2つの補完的な拡張を使用しており、ひとつは所望のプロパティを保持しながらコンテキストを操作する。
データの拡張版は、2つのエンコーダによって符号化され、デコーダによって再構成される。
エンコーダの一方が所望のプロパティを埋め込み、もう一方がコンテキストプロパティを組み込むことを証明します。
音声信号に自動分解を適用し,音源(人間の声)とコンテンツの符号化を行う。
このモデルをYouTubeとLibriSpeechのデータセットで事前トレーニングし、ラベルを公開せずに自己教師付きで微調整した。
その結果,事前学習したオートコンプリートの音源エンコーダを用いて,10秒のラベル付きサンプルを用いた30話者の音声認識におけるF1スコア97.6\%を,教師付きモデルでは95.7\%と比較した。
さらに,大規模モデルが小さなデータセット上で事前トレーニングされた場合でも,オーバーフィットに対してautodecomposeは堅牢であることを示した。
3つの話者から60秒間の音声をスクラッチから事前学習し、98.5\%のf1スコアを達成し、これら3つの話者を他の見当たらない発話で認識した。
最後に、コンテキストエンコーダが音声の内容に関する情報を埋め込み、音源情報を無視していることを示す。
このモデルをトレーニングするためのサンプルコードと、事前トレーニングされたモデルを使用するサンプルは、以下の通りである。
関連論文リスト
- TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - Large-scale unsupervised audio pre-training for video-to-speech
synthesis [64.86087257004883]
音声合成は、話者の無声映像から音声信号を再構成する作業である。
本稿では,24kHzで3,500時間以上のオーディオデータをエンコーダ・デコーダモデルでトレーニングすることを提案する。
次に、事前学習したデコーダを用いて、音声合成タスクの音声デコーダを初期化する。
論文 参考訳(メタデータ) (2023-06-27T13:31:33Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Automatic Curation of Large-Scale Datasets for Audio-Visual
Representation Learning [62.47593143542552]
本稿では,自動データセットキュレーションのためのサブセット最適化手法について述べる。
本研究では,高視聴覚対応の映像を抽出し,自己監視モデルが自動的に構築されているにもかかわらず,既存のスケールのビデオデータセットと類似したダウンストリームパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2021-01-26T14:27:47Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - NAViDAd: A No-Reference Audio-Visual Quality Metric Based on a Deep
Autoencoder [0.0]
ディープオートエンコーダ(NAViDAd)に基づく非参照音声品質指標を提案する。
このモデルは、ディープオートエンコーダ層と分類層を含む2層フレームワークによって構成される。
このモデルは、UnB-AVとLiveNetflix-IIデータベースでテストするとうまく動作した。
論文 参考訳(メタデータ) (2020-01-30T15:40:08Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。