論文の概要: DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio
Representation Learning
- arxiv url: http://arxiv.org/abs/2203.13628v1
- Date: Fri, 25 Mar 2022 12:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 18:05:12.663122
- Title: DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio
Representation Learning
- Title(参考訳): DeLoRes:低リソース音声表現学習のための遅延空間のデコレーション
- Authors: Sreyan Ghosh and Ashish Seth and S Umesh
- Abstract要約: 本稿では,DeLoRes-SとDeLoRes-Mという2つの新しい汎用音声表現学習手法を提案する。
私たちの主な目的は、リソース制約のある環境でネットワークに表現を学習させることです。
評価のために、これらの学習された表現を、音声、音楽、動物音を含む11の下流分類タスクに転送する。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the recent progress in self-supervised learning for computer
vision, in this paper, through the DeLoRes learning framework, we introduce two
new general-purpose audio representation learning approaches, the DeLoRes-S and
DeLoRes-M. Our main objective is to make our network learn representations in a
resource-constrained setting (both data and compute), that can generalize well
across a diverse set of downstream tasks. Inspired from the Barlow Twins
objective function, we propose to learn embeddings that are invariant to
distortions of an input audio sample, while making sure that they contain
non-redundant information about the sample. To achieve this, we measure the
cross-correlation matrix between the outputs of two identical networks fed with
distorted versions of an audio segment sampled from an audio file and make it
as close to the identity matrix as possible. We call this the DeLoRes learning
framework, which we employ in different fashions with the DeLoRes-S and
DeLoRes-M. We use a combination of a small subset of the large-scale AudioSet
dataset and FSD50K for self-supervised learning and are able to learn with less
than half the parameters compared to state-of-the-art algorithms. For
evaluation, we transfer these learned representations to 11 downstream
classification tasks, including speech, music, and animal sounds, and achieve
state-of-the-art results on 7 out of 11 tasks on linear evaluation with
DeLoRes-M and show competitive results with DeLoRes-S, even when pre-trained
using only a fraction of the total data when compared to prior art. Our
transfer learning evaluation setup also shows extremely competitive results for
both DeLoRes-S and DeLoRes-M, with DeLoRes-M achieving state-of-the-art in 4
tasks.
- Abstract(参考訳): 本稿では,コンピュータビジョンのための自己教師型学習の最近の進歩に触発され,DeLoRes学習フレームワークを通じて,DeLoRes-SとDeLoRes-Mという2つの新しい汎用音声表現学習手法を導入する。
私たちの主な目的は、ネットワークがリソースに制約された設定(データと計算の両方)で表現を学習できるようにすることです。
Barlow Twins の目的関数からインスピレーションを得て,入力された音声サンプルの歪みに不変な埋め込みを学習し,サンプルの非冗長な情報を含むことを確かめる。
これを実現するために、オーディオファイルからサンプリングされたオーディオセグメントの歪んだバージョンで供給される2つの同一ネットワークの出力間の相互相関行列を測定し、可能な限りアイデンティティマトリックスに近づける。
私たちはこれをDeLoRes学習フレームワークと呼び、DeLoRes-SとDeLoRes-Mで異なる方法で採用しています。
自己教師付き学習には,大規模オーディオセットデータセットの小さなサブセットとfsd50kの組み合わせを用い,最先端アルゴリズムと比較して,半分未満のパラメータで学習することができる。
評価のために,これらの学習された表現を,音声,音楽,動物音を含む11の下流分類タスクに転送し,デロレス-mを用いた線形評価の11タスクのうち7タスクについて最新結果を得るとともに,先行技術と比較した場合に総データのほんの一部しか使用していない場合でも,デロレス-sによる競合結果を示す。
転送学習評価設定では,DeLoRes-SとDeLoRes-Mの双方に対して,DeLoRes-Mが4つのタスクで最先端を達成し,極めて競争力のある結果を示した。
関連論文リスト
- SCoRe: Submodular Combinatorial Representation Learning for Real-World
Class-Imbalanced Settings [6.294884163829946]
希少クラスの視覚的特徴と構造的特徴の多様性の欠如は、非ネイティブな特徴クラスタを学ぶために現代のニューラルネットワークを制限する。
サブモジュール情報対策は、特徴クラスタ間の多様性と協力を同時にモデル化できる特性を示す。
既存の対照的な学習アプローチは、サブモジュラーであるか、あるいは、サブモジュラーなアプローチを作成するために再形式化することができる。
論文 参考訳(メタデータ) (2023-09-29T22:09:07Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Dual Learning for Large Vocabulary On-Device ASR [64.10124092250128]
デュアル・ラーニング(英: Dual learning)は、教師なしのデータを一度に2つの逆のタスクを解くことによって活用しようとする、半教師なし機械学習のパラダイムである。
本稿では,Librispeech全体をトレーニングしたオンデバイスサイズのストリーミングコンバータの解析を行い,LMを使わずにWERを10.7%/5.2%,LMを11.7%/16.4%改善したことを示す。
論文 参考訳(メタデータ) (2023-01-11T06:32:28Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文 参考訳(メタデータ) (2021-08-10T13:49:41Z) - Multi-task MR Imaging with Iterative Teacher Forcing and Re-weighted
Deep Learning [14.62432715967572]
我々は,既存のビッグデータから事前知識を学習するための,マルチタスク深層学習手法を開発した。
次に,これらを用いて,アンダーサンプリングしたk空間データからMR再構成とセグメンテーションを同時支援する。
提案手法は,同時的かつ正確なMR再構成とセグメンテーションの促進機能を有することを示す。
論文 参考訳(メタデータ) (2020-11-27T09:08:05Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。