論文の概要: DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio
Representation Learning
- arxiv url: http://arxiv.org/abs/2203.13628v1
- Date: Fri, 25 Mar 2022 12:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 18:05:12.663122
- Title: DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio
Representation Learning
- Title(参考訳): DeLoRes:低リソース音声表現学習のための遅延空間のデコレーション
- Authors: Sreyan Ghosh and Ashish Seth and S Umesh
- Abstract要約: 本稿では,DeLoRes-SとDeLoRes-Mという2つの新しい汎用音声表現学習手法を提案する。
私たちの主な目的は、リソース制約のある環境でネットワークに表現を学習させることです。
評価のために、これらの学習された表現を、音声、音楽、動物音を含む11の下流分類タスクに転送する。
- 参考スコア(独自算出の注目度): 1.2031796234206138
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by the recent progress in self-supervised learning for computer
vision, in this paper, through the DeLoRes learning framework, we introduce two
new general-purpose audio representation learning approaches, the DeLoRes-S and
DeLoRes-M. Our main objective is to make our network learn representations in a
resource-constrained setting (both data and compute), that can generalize well
across a diverse set of downstream tasks. Inspired from the Barlow Twins
objective function, we propose to learn embeddings that are invariant to
distortions of an input audio sample, while making sure that they contain
non-redundant information about the sample. To achieve this, we measure the
cross-correlation matrix between the outputs of two identical networks fed with
distorted versions of an audio segment sampled from an audio file and make it
as close to the identity matrix as possible. We call this the DeLoRes learning
framework, which we employ in different fashions with the DeLoRes-S and
DeLoRes-M. We use a combination of a small subset of the large-scale AudioSet
dataset and FSD50K for self-supervised learning and are able to learn with less
than half the parameters compared to state-of-the-art algorithms. For
evaluation, we transfer these learned representations to 11 downstream
classification tasks, including speech, music, and animal sounds, and achieve
state-of-the-art results on 7 out of 11 tasks on linear evaluation with
DeLoRes-M and show competitive results with DeLoRes-S, even when pre-trained
using only a fraction of the total data when compared to prior art. Our
transfer learning evaluation setup also shows extremely competitive results for
both DeLoRes-S and DeLoRes-M, with DeLoRes-M achieving state-of-the-art in 4
tasks.
- Abstract(参考訳): 本稿では,コンピュータビジョンのための自己教師型学習の最近の進歩に触発され,DeLoRes学習フレームワークを通じて,DeLoRes-SとDeLoRes-Mという2つの新しい汎用音声表現学習手法を導入する。
私たちの主な目的は、ネットワークがリソースに制約された設定(データと計算の両方)で表現を学習できるようにすることです。
Barlow Twins の目的関数からインスピレーションを得て,入力された音声サンプルの歪みに不変な埋め込みを学習し,サンプルの非冗長な情報を含むことを確かめる。
これを実現するために、オーディオファイルからサンプリングされたオーディオセグメントの歪んだバージョンで供給される2つの同一ネットワークの出力間の相互相関行列を測定し、可能な限りアイデンティティマトリックスに近づける。
私たちはこれをDeLoRes学習フレームワークと呼び、DeLoRes-SとDeLoRes-Mで異なる方法で採用しています。
自己教師付き学習には,大規模オーディオセットデータセットの小さなサブセットとfsd50kの組み合わせを用い,最先端アルゴリズムと比較して,半分未満のパラメータで学習することができる。
評価のために,これらの学習された表現を,音声,音楽,動物音を含む11の下流分類タスクに転送し,デロレス-mを用いた線形評価の11タスクのうち7タスクについて最新結果を得るとともに,先行技術と比較した場合に総データのほんの一部しか使用していない場合でも,デロレス-sによる競合結果を示す。
転送学習評価設定では,DeLoRes-SとDeLoRes-Mの双方に対して,DeLoRes-Mが4つのタスクで最先端を達成し,極めて競争力のある結果を示した。
関連論文リスト
- AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。
提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。
AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文 参考訳(メタデータ) (2024-12-03T17:41:23Z) - Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。
CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文 参考訳(メタデータ) (2023-06-01T12:53:10Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Leveraging Uni-Modal Self-Supervised Learning for Multimodal
Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。
特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。
本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文 参考訳(メタデータ) (2022-02-24T15:12:17Z) - Automated Audio Captioning using Transfer Learning and Reconstruction
Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。
また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文 参考訳(メタデータ) (2021-08-10T13:49:41Z) - Multi-task MR Imaging with Iterative Teacher Forcing and Re-weighted
Deep Learning [14.62432715967572]
我々は,既存のビッグデータから事前知識を学習するための,マルチタスク深層学習手法を開発した。
次に,これらを用いて,アンダーサンプリングしたk空間データからMR再構成とセグメンテーションを同時支援する。
提案手法は,同時的かつ正確なMR再構成とセグメンテーションの促進機能を有することを示す。
論文 参考訳(メタデータ) (2020-11-27T09:08:05Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。