論文の概要: Exploring Federated Self-Supervised Learning for General Purpose Audio
Understanding
- arxiv url: http://arxiv.org/abs/2402.02889v1
- Date: Mon, 5 Feb 2024 10:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:47:31.539355
- Title: Exploring Federated Self-Supervised Learning for General Purpose Audio
Understanding
- Title(参考訳): 汎用音声理解のためのフェデレーション型自己監督学習の探索
- Authors: Yasar Abbas Ur Rehman, Kin Wai Lau, Yuyang Xie, Lan Ma, Jiajun Shen
- Abstract要約: 本稿では,大規模な分散異種クライアントから中間機能表現を学習可能な新しいF-SSLフレームワークであるFASSLを提案する。
本研究は,音声-検索タスクにおける集中型音声-SSLアプローチと同等に音声F-SSLアプローチが動作することを示した。
- 参考スコア(独自算出の注目度): 14.468870364990291
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The integration of Federated Learning (FL) and Self-supervised Learning (SSL)
offers a unique and synergetic combination to exploit the audio data for
general-purpose audio understanding, without compromising user data privacy.
However, rare efforts have been made to investigate the SSL models in the FL
regime for general-purpose audio understanding, especially when the training
data is generated by large-scale heterogeneous audio sources. In this paper, we
evaluate the performance of feature-matching and predictive audio-SSL
techniques when integrated into large-scale FL settings simulated with
non-independently identically distributed (non-iid) data. We propose a novel
Federated SSL (F-SSL) framework, dubbed FASSL, that enables learning
intermediate feature representations from large-scale decentralized
heterogeneous clients, holding unlabelled audio data. Our study has found that
audio F-SSL approaches perform on par with the centralized audio-SSL approaches
on the audio-retrieval task. Extensive experiments demonstrate the
effectiveness and significance of FASSL as it assists in obtaining the optimal
global model for state-of-the-art FL aggregation methods.
- Abstract(参考訳): federated learning (fl) と self-supervised learning (ssl) の統合は、ユーザデータのプライバシーを損なうことなく、オーディオデータを汎用オーディオ理解に活用するためのユニークで相乗効果のある組み合わせを提供する。
しかし,大規模な異種音源からトレーニングデータを生成する場合,FL方式のSSLモデルを汎用音声理解のために研究することは稀である。
本稿では,非独立分散(非iid)データにシミュレートされた大規模fl設定に組み込む場合の特徴マッチングおよび予測オーディオssl技術の性能評価を行う。
本稿では,大規模分散ヘテロジニアスクライアントから中間的特徴表現を学習し,ラベルなし音声データを保持する新しいフェデレートssl(f-ssl)フレームワークを提案する。
本研究は,音声-検索タスクにおける集中型音声-SSLアプローチと同等の性能を示すことを示す。
広範囲な実験により、fasslが最先端fl集約法のための最適なグローバルモデルを得るのに役立つことの有効性と意義が示されている。
関連論文リスト
- Universal Sound Separation with Self-Supervised Audio Masked Autoencoder [35.560261097213846]
本稿では,音声マスク付きオートエンコーダ(A-MAE)を汎用的な音声分離システムに統合する自己教師付き事前学習モデルを提案する。
提案手法は,最先端のResUNetベースUSSモデルの分離性能の向上に成功している。
論文 参考訳(メタデータ) (2024-07-16T14:11:44Z) - SLICER: Learning universal audio representations using low-resource
self-supervised pre-training [53.06337011259031]
ラベルなし音声データに事前学習エンコーダを組み込むための自己指導型学習手法を提案する。
我々の主な目的は、多種多様な音声および非音声タスクにまたがる一般化が可能な音声表現を学習することである。
論文 参考訳(メタデータ) (2022-11-02T23:45:33Z) - Collaborative Intelligence Orchestration: Inconsistency-Based Fusion of
Semi-Supervised Learning and Active Learning [60.26659373318915]
アクティブラーニング(AL)と半教師付きラーニング(SSL)は2つの効果があるが、しばしば孤立している。
本稿では、SSL-ALの潜在的な優位性をさらに調査するために、革新的な一貫性に基づく仮想aDvErialアルゴリズムを提案する。
2つの実世界のケーススタディは、提案したデータサンプリングアルゴリズムの適用と展開の実践的な産業価値を可視化する。
論文 参考訳(メタデータ) (2022-06-07T13:28:43Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - Combining Spectral and Self-Supervised Features for Low Resource Speech
Recognition and Translation [27.857955394020475]
自己教師付き学習(SSL)モデルは、様々なディープラーニングベースの音声タスクにうまく適用されている。
SSL表現の品質は、SSLトレーニングドメインとターゲットデータドメインの関連性に大きく依存します。
SFとSSLの表現を組み合わせるための学習可能かつ解釈可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-05T20:09:15Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - Semantics-driven Attentive Few-shot Learning over Clean and Noisy
Samples [0.0]
メタラーナーモデルを学習し、新しいクラスに関する事前の意味知識を活用して分類器合成プロセスを導くことを目指している。
特に,表現次元とトレーニングインスタンスの重要性を推定する意味条件付き特徴注意機構とサンプル注意機構を提案する。
論文 参考訳(メタデータ) (2022-01-09T16:16:23Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - A Strong Baseline for Semi-Supervised Incremental Few-Shot Learning [54.617688468341704]
少ないショット学習は、限られたトレーニングサンプルを持つ新しいクラスに一般化するモデルを学ぶことを目的としている。
本研究では,(1)信頼できない擬似ラベルによる基本クラスと新クラスのあいまいさを緩和する高度に設計されたメタトレーニングアルゴリズム,(2)ラベルの少ないデータとラベルなしデータを用いて基礎知識を保ちながら,新クラスの識別的特徴を学習するモデル適応機構を提案する。
論文 参考訳(メタデータ) (2021-10-21T13:25:52Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。