論文の概要: Federated Self-supervised Speech Representations: Are We There Yet?
- arxiv url: http://arxiv.org/abs/2204.02804v1
- Date: Wed, 6 Apr 2022 13:14:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-07 15:24:36.676301
- Title: Federated Self-supervised Speech Representations: Are We There Yet?
- Title(参考訳): Federated Self-supervised Speech Representations: We Are There there?
- Authors: Yan Gao, Javier Fernandez-Marques, Titouan Parcollet, Abhinav
Mehrotra, Nicholas D. Lane
- Abstract要約: 自己教師付き学習(SSL)とフェデレーション付き学習(FL)をひとつのコヒーレントシステムに統合することは、データプライバシの保証を提供する可能性がある。
その組み合わせの可能性が高いにもかかわらず、既存のシステムの制約やアルゴリズム的な振る舞いにより、SSLとFLシステムの構築はほぼ不可能である。
我々の分析によると、ハードウェアの既存のトレンドを考えると、SSLとFLのハイブリッド音声システムは2027年まで使えなくなる。
- 参考スコア(独自算出の注目度): 21.560748901369852
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ubiquity of microphone-enabled devices has lead to large amounts of
unlabelled audio data being produced at the edge. The integration of
self-supervised learning (SSL) and federated learning (FL) into one coherent
system can potentially offer data privacy guarantees while also advancing the
quality and robustness of speech representations. In this paper, we provide a
first-of-its-kind systematic study of the feasibility and complexities for
training speech SSL models under FL scenarios from the perspective of
algorithms, hardware, and systems limits. Despite the high potential of their
combination, we find existing system constraints and algorithmic behaviour make
SSL and FL systems nearly impossible to build today. Yet critically, our
results indicate specific performance bottlenecks and research opportunities
that would allow this situation to be reversed. While our analysis suggests
that, given existing trends in hardware, hybrid SSL and FL speech systems will
not be viable until 2027. We believe this study can act as a roadmap to
accelerate work towards reaching this milestone much earlier.
- Abstract(参考訳): マイク対応デバイスの普及により、エッジで大量のラベルなしオーディオデータが生成される。
自己教師付き学習(SSL)とフェデレーション付き学習(FL)を1つのコヒーレントシステムに統合することで、データのプライバシーを保証すると同時に、音声表現の品質と堅牢性も向上する可能性がある。
本稿では,アルゴリズム,ハードウェア,システム限界の観点から,flシナリオ下での音声sslモデルの学習における実現可能性と複雑さについて体系的に検討する。
その組み合わせの可能性が高いにもかかわらず、既存のシステムの制約やアルゴリズム的な振る舞いにより、SSLとFLシステムの構築はほぼ不可能である。
しかし,本研究の結果は,特定のパフォーマンスボトルネックと,この状況の逆転を可能にする研究機会を示している。
我々の分析によると、ハードウェアの既存のトレンドを考えると、SSLとFLのハイブリッド音声システムは2027年まで使えなくなる。
この研究は、このマイルストーンをずっと早く達成するための作業を加速するためのロードマップとして機能すると思います。
関連論文リスト
- Exploring Federated Self-Supervised Learning for General Purpose Audio
Understanding [14.468870364990291]
本稿では,大規模な分散異種クライアントから中間機能表現を学習可能な新しいF-SSLフレームワークであるFASSLを提案する。
本研究は,音声-検索タスクにおける集中型音声-SSLアプローチと同等に音声F-SSLアプローチが動作することを示した。
論文 参考訳(メタデータ) (2024-02-05T10:57:48Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech Recognition [62.89464258519723]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Semi-Supervised Class-Agnostic Motion Prediction with Pseudo Label
Regeneration and BEVMix [59.55173022987071]
クラス非依存動作予測のための半教師あり学習の可能性について検討する。
我々のフレームワークは一貫性に基づく自己学習パラダイムを採用しており、ラベルのないデータからモデルを学習することができる。
本手法は,弱さと完全教師付き手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-12-13T09:32:50Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - Semi-Supervised Federated Learning for Keyword Spotting [15.044022869136262]
キーワードスポッティング(KWS)は、モバイルデバイスや仮想アシスタントにおける音声ベースのアプリケーションにおいて重要な側面である。
フェデレートラーニング(FL)の最近の進歩は、機械学習モデルをトレーニングする能力を著しく拡大している。
論文 参考訳(メタデータ) (2023-05-09T00:46:12Z) - Self-Supervised Learning for Speech Enhancement through Synthesis [5.924928860260821]
そこで本研究では,ボコーダが雑音表現を受け入れ,クリーンな音声を直接合成する方法を学習する,デノナイズドボコーダ(DeVo)アプローチを提案する。
10msのレイテンシとパフォーマンスの低下を最小限に抑えながら,ストリーミングオーディオ上で動作可能な因果バージョンを実証した。
論文 参考訳(メタデータ) (2022-11-04T16:06:56Z) - Seen to Unseen: When Fuzzy Inference System Predicts IoT Device
Positioning Labels That Had Not Appeared in Training Phase [27.41656626457089]
未確認のクラスラベル予測は、ディープラーニング(DL)モデルのトレーニングで見えないクラスがあるため、はるかに調査されていない。
本稿では,TSK+ファジィ推論エンジンを用いたファジィ推論システムを提案する。
モノのインターネット(IoT)領域におけるネットワークデバイスの位置決めラベルを予測し,本システムの実現可能性を評価する。
論文 参考訳(メタデータ) (2022-09-21T19:51:11Z) - Distributed Machine Learning in D2D-Enabled Heterogeneous Networks:
Architectures, Performance, and Open Challenges [12.62400578837111]
本稿では、2つの革新的なハイブリッド分散機械学習アーキテクチャ、すなわちハイブリッドスプリットFL(HSFL)とハイブリッドフェデレーションSL(HFSL)を紹介する。
HSFLとHFSLは、D2D対応ヘテロジニアス無線ネットワークにおけるFLとSLの長所を組み合わせたものである。
シミュレーションの結果,従来のFLやSLと比較して通信・計算コストや訓練遅延が顕著に減少した。
論文 参考訳(メタデータ) (2022-06-04T04:20:51Z) - Audio Self-supervised Learning: A Survey [60.41768569891083]
SSL(Self-Supervised Learning)は、人間のアノテーションを必要とせずに、大規模データから一般的な表現を見つけることを目的としている。
コンピュータビジョンと自然言語処理の分野での成功により、近年では音声処理や音声処理の分野で採用されている。
論文 参考訳(メタデータ) (2022-03-02T15:58:29Z) - UniSpeech-SAT: Universal Speech Representation Learning with Speaker
Aware Pre-Training [72.004873454347]
教師なし話者情報抽出の2つの手法が導入された。
SUPERBベンチマークによる実験結果から,提案方式は最先端の性能を実現することが示された。
トレーニングデータセットを94万時間公開オーディオデータにスケールアップし、さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2021-10-12T05:43:30Z) - Learning from Very Few Samples: A Survey [80.06120185496403]
機械学習の分野では、サンプル学習が重要で難しいものはほとんどない。
通常、一般化能力を保証するために数百から数千の教師付きサンプルを含むサンプル学習アルゴリズムはほとんどない。
論文 参考訳(メタデータ) (2020-09-06T06:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。