論文の概要: A Framework for Generative and Contrastive Learning of Audio
Representations
- arxiv url: http://arxiv.org/abs/2010.11459v2
- Date: Tue, 16 Mar 2021 21:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:28:01.498817
- Title: A Framework for Generative and Contrastive Learning of Audio
Representations
- Title(参考訳): 音声表現の生成とコントラスト学習のためのフレームワーク
- Authors: Prateek Verma, Julius Smith
- Abstract要約: 本研究では,音声表現のためのコントラスト学習フレームワークを提案する。
また、音声信号の潜在空間を学習するために、アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
- 参考スコア(独自算出の注目度): 2.8935588665357077
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a framework for contrastive learning for audio
representations, in a self supervised frame work without access to any ground
truth labels. The core idea in self supervised contrastive learning is to map
an audio signal and its various augmented versions (representative of salient
aspects of audio like pitch, timbre etc.) to a space where they are close
together, and are separated from other different signals. In addition we also
explore generative models based on state of the art transformer based
architectures for learning latent spaces for audio signals, without access to
any labels. Here, we map audio signals on a smaller scale to discrete
dictionary elements and train transformers to predict the next dictionary
element. We only use data as a method of supervision, bypassing the need of
labels needed to act as a supervision for training the deep neural networks. We
then use a linear classifier head in order to evaluate the performance of our
models, for both self supervised contrastive and generative transformer based
representations that are learned. Our system achieves considerable performance,
compared to a fully supervised method, with access to ground truth labels to
train the neural network model. These representations, with avail-ability of
large scale audio data show promise in various tasks for audio understanding
tasks
- Abstract(参考訳): 本稿では,基底的真理ラベルを使わずに自己教師付きフレーム作業において,音声表現のコントラスト学習のための枠組みを提案する。
自己教師付きコントラスト学習の核となるアイデアは、オーディオ信号とその拡張されたバージョン(ピッチや音色といった音声の突出した側面を示す)を、互いに近接した空間にマッピングし、他の異なる信号と分離することである。
さらに,音声信号の潜伏空間をラベルにアクセスできることなく学習するための,アートトランスフォーマーに基づくアーキテクチャの状態に基づく生成モデルについても検討する。
ここでは,音声信号を離散辞書要素とトレイントランスフォーマに小さなスケールでマッピングし,次の辞書要素を予測する。
私たちは、深層ニューラルネットワークのトレーニングの監督として機能するために必要なラベルの必要性を回避して、監視の手段としてデータのみを使用します。
次に、線形分類器ヘッドを用いて、学習した自己教師付きコントラストと生成変換器に基づく表現の両方に対して、モデルの性能を評価する。
本システムは,ニューラルネットワークモデルをトレーニングするために,地上の真理ラベルにアクセス可能な完全教師付き手法と比較して,かなりの性能を実現している。
これらの表現は、音声理解タスクの様々なタスクにおいて、大規模音声データの利用性を示す。
関連論文リスト
- SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z) - Self-supervised Learning with Random-projection Quantizer for Speech
Recognition [51.24368930992091]
音声認識のためのシンプルで効果的な自己教師型学習手法を提案する。
このアプローチは、離散ラベルの形で、マスキングされた音声信号を予測するモデルを学ぶ。
非ストリーミングモデルを用いた自己教師付き学習を用いて、従来の作業と同じような単語エラー率を達成する。
論文 参考訳(メタデータ) (2022-02-03T21:29:04Z) - Self-supervised Graphs for Audio Representation Learning with Limited
Labeled Data [24.608764078208953]
サブグラフは、ラベル付きオーディオサンプルとラベルなしオーディオサンプルの関係を利用するために、利用可能なトレーニングデータのプール全体をサンプリングすることによって構築される。
我々は,3つのベンチマーク音声データベースと,音響事象検出と音声感情認識の2つのタスクについて,そのモデルを評価する。
我々のモデルはコンパクト(240kパラメータ)であり、様々な種類の信号ノイズに対して堅牢な一般化された音声表現を生成することができる。
論文 参考訳(メタデータ) (2022-01-31T21:32:22Z) - SSAST: Self-Supervised Audio Spectrogram Transformer [19.09439093130855]
本稿では,非ラベル音声を用いた音声スペクトログラム変換器(AST)モデルを,共同識別・生成型マスマスキング・スペクトログラム・パッチ・モデリング(MSPM)で事前学習することを提案する。
我々は、音声イベント分類、キーワードスポッティング、感情認識、話者識別を含む音声および音声の分類タスクにおいて、事前訓練されたモデルを評価する。
我々の知る限りでは、このフレームワークはオーディオおよび音声領域における最初のパッチベースのセルフ教師あり学習フレームワークであり、ASTのための最初のセルフ教師あり学習フレームワークでもある。
論文 参考訳(メタデータ) (2021-10-19T07:58:28Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Diffusion-Based Representation Learning [65.55681678004038]
教師付き信号のない表現学習を実現するために,デノナイズスコアマッチングフレームワークを拡張した。
対照的に、拡散に基づく表現学習は、デノナイジングスコアマッチング目的の新しい定式化に依存している。
同じ手法を用いて,半教師付き画像分類における最先端モデルの改善を実現する無限次元潜在符号の学習を提案する。
論文 参考訳(メタデータ) (2021-05-29T09:26:02Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Unsupervised Learning of Audio Perception for Robotics Applications:
Learning to Project Data to T-SNE/UMAP space [2.8935588665357077]
本論文は,接地構造データにアクセスすることなく,触覚の知覚を構築するための重要なアイデアを基礎にしている。
我々は、古典的な信号処理のアイデアを活用して、高い精度で興味のある音の大量のデータを得る方法を示す。
論文 参考訳(メタデータ) (2020-02-10T20:33:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。