Fugu-MT 論文翻訳(概要): DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning

論文の概要: DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning

arxiv url: http://arxiv.org/abs/2203.13628v1
Date: Fri, 25 Mar 2022 12:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-28 18:05:12.663122
Title: DeLoRes: Decorrelating Latent Spaces for Low-Resource Audio Representation Learning
Title（参考訳）: DeLoRes:低リソース音声表現学習のための遅延空間のデコレーション
Authors: Sreyan Ghosh and Ashish Seth and S Umesh
Abstract要約: 本稿では,DeLoRes-SとDeLoRes-Mという2つの新しい汎用音声表現学習手法を提案する。私たちの主な目的は、リソース制約のある環境でネットワークに表現を学習させることです。評価のために、これらの学習された表現を、音声、音楽、動物音を含む11の下流分類タスクに転送する。
参考スコア（独自算出の注目度）: 1.2031796234206138
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inspired by the recent progress in self-supervised learning for computer vision, in this paper, through the DeLoRes learning framework, we introduce two new general-purpose audio representation learning approaches, the DeLoRes-S and DeLoRes-M. Our main objective is to make our network learn representations in a resource-constrained setting (both data and compute), that can generalize well across a diverse set of downstream tasks. Inspired from the Barlow Twins objective function, we propose to learn embeddings that are invariant to distortions of an input audio sample, while making sure that they contain non-redundant information about the sample. To achieve this, we measure the cross-correlation matrix between the outputs of two identical networks fed with distorted versions of an audio segment sampled from an audio file and make it as close to the identity matrix as possible. We call this the DeLoRes learning framework, which we employ in different fashions with the DeLoRes-S and DeLoRes-M. We use a combination of a small subset of the large-scale AudioSet dataset and FSD50K for self-supervised learning and are able to learn with less than half the parameters compared to state-of-the-art algorithms. For evaluation, we transfer these learned representations to 11 downstream classification tasks, including speech, music, and animal sounds, and achieve state-of-the-art results on 7 out of 11 tasks on linear evaluation with DeLoRes-M and show competitive results with DeLoRes-S, even when pre-trained using only a fraction of the total data when compared to prior art. Our transfer learning evaluation setup also shows extremely competitive results for both DeLoRes-S and DeLoRes-M, with DeLoRes-M achieving state-of-the-art in 4 tasks.
Abstract（参考訳）: 本稿では,コンピュータビジョンのための自己教師型学習の最近の進歩に触発され,DeLoRes学習フレームワークを通じて,DeLoRes-SとDeLoRes-Mという2つの新しい汎用音声表現学習手法を導入する。私たちの主な目的は、ネットワークがリソースに制約された設定(データと計算の両方)で表現を学習できるようにすることです。 Barlow Twins の目的関数からインスピレーションを得て,入力された音声サンプルの歪みに不変な埋め込みを学習し,サンプルの非冗長な情報を含むことを確かめる。これを実現するために、オーディオファイルからサンプリングされたオーディオセグメントの歪んだバージョンで供給される2つの同一ネットワークの出力間の相互相関行列を測定し、可能な限りアイデンティティマトリックスに近づける。私たちはこれをDeLoRes学習フレームワークと呼び、DeLoRes-SとDeLoRes-Mで異なる方法で採用しています。自己教師付き学習には,大規模オーディオセットデータセットの小さなサブセットとfsd50kの組み合わせを用い,最先端アルゴリズムと比較して,半分未満のパラメータで学習することができる。評価のために,これらの学習された表現を,音声,音楽,動物音を含む11の下流分類タスクに転送し,デロレス-mを用いた線形評価の11タスクのうち7タスクについて最新結果を得るとともに,先行技術と比較した場合に総データのほんの一部しか使用していない場合でも,デロレス-sによる競合結果を示す。転送学習評価設定では,DeLoRes-SとDeLoRes-Mの双方に対して,DeLoRes-Mが4つのタスクで最先端を達成し,極めて競争力のある結果を示した。

関連論文リスト

Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework [19.53717894228692]
DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
論文参考訳（メタデータ） (2025-06-09T02:13:04Z)
Adaptive Audio-Visual Speech Recognition via Matryoshka-Based Multimodal LLMs [33.12165044958361]
近年のLarge Language Models (LLMs) の進歩は、音声認識において、AVSR (Audio-Visual Speech Recognition) を含むその効果を実証している。音声表現のかなりの長さのため、LLMとの直接統合は相当な計算コストを課す。 AVSRのための最初のマトリオシュカベースのマルチモーダルLLMであるLlama-MTSKを提案する。
論文参考訳（メタデータ） (2025-03-09T00:02:10Z)
AV-Odyssey Bench: Can Your Multimodal LLMs Really Understand Audio-Visual Information? [65.49972312524724]
マルチモーダルな大言語モデル(MLLM)は、視覚とオーディオのモダリティを含む機能を拡張した。提案したDeafTestは、MLLMが人間にとって簡単なタスクとよく戦っていることを示している。 AV-Odyssey Benchは、これらのMLLMが真にオーディオ視覚情報を理解できるかどうかを評価するために設計された総合的なオーディオ視覚ベンチマークである。
論文参考訳（メタデータ） (2024-12-03T17:41:23Z)
Large Language Models Are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。本稿では,Llama-AVSRを提案する。我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法の評価を行い,WERが0.81%,0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果を得た。
論文参考訳（メタデータ） (2024-09-18T21:17:27Z)
CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。そこで本研究では,学習バランスを定量的に評価する尺度を提案する。さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文参考訳（メタデータ） (2024-07-29T23:18:55Z)
Representation Learning With Hidden Unit Clustering For Low Resource Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。 HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文参考訳（メタデータ） (2023-07-14T13:02:10Z)
Class Anchor Margin Loss for Content-Based Image Retrieval [97.81742911657497]
距離学習パラダイムに該当する新しいレペラ・トラクタ損失を提案するが、ペアを生成する必要がなく、直接L2メトリックに最適化する。 CBIRタスクにおいて,畳み込みアーキテクチャと変圧器アーキテクチャの両方を用いて,少数ショットおよびフルセットトレーニングの文脈で提案した目的を評価する。
論文参考訳（メタデータ） (2023-06-01T12:53:10Z)
USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。既存のアプローチは通常、2つの大きな制限に悩まされる。
論文参考訳（メタデータ） (2023-01-17T12:42:58Z)
SLICER: Learning universal audio representations using low-resource self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文参考訳（メタデータ） (2022-11-02T23:45:33Z)
Leveraging Uni-Modal Self-Supervised Learning for Multimodal Audio-Visual Speech Recognition [23.239078852797817]
マルチモーダル音声視覚音声認識(AVSR)の推進に一様自己教師型学習を活用する。特に、私たちはまず大規模なユニモーダルデータセットでオーディオとビジュアルエンコーダをトレーニングし、その後、両方のエンコーダのコンポーネントをより大きなマルチモーダルフレームワークに統合します。本モデルは,単語レベルと文レベルの両方のAVSRタスクに対して実験的に検証される。
論文参考訳（メタデータ） (2022-02-24T15:12:17Z)
Automated Audio Captioning using Transfer Learning and Reconstruction Latent Space Similarity Regularization [21.216783537997426]
本稿では,PANNが自動音声キャプチャータスクに提供した音響特性をよりよく活用するアーキテクチャを提案する。また、新しい自己監督型ラテント空間類似度正規化(RLSSR)も導入する。
論文参考訳（メタデータ） (2021-08-10T13:49:41Z)
Multi-task MR Imaging with Iterative Teacher Forcing and Re-weighted Deep Learning [14.62432715967572]
我々は,既存のビッグデータから事前知識を学習するための,マルチタスク深層学習手法を開発した。次に,これらを用いて,アンダーサンプリングしたk空間データからMR再構成とセグメンテーションを同時支援する。提案手法は,同時的かつ正確なMR再構成とセグメンテーションの促進機能を有することを示す。
論文参考訳（メタデータ） (2020-11-27T09:08:05Z)
Fast accuracy estimation of deep learning based multi-class musical source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文参考訳（メタデータ） (2020-10-19T13:05:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。