論文の概要: An Analysis of Linear Complexity Attention Substitutes with BEST-RQ
- arxiv url: http://arxiv.org/abs/2409.02596v1
- Date: Wed, 4 Sep 2024 10:27:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-05 19:10:42.906050
- Title: An Analysis of Linear Complexity Attention Substitutes with BEST-RQ
- Title(参考訳): BEST-RQを用いた線形複雑注意置換体の解析
- Authors: Ryan Whetten, Titouan Parcollet, Adel Moumen, Marco Dinarelli, Yannick Estève,
- Abstract要約: 自己監督学習は、音声処理を含む様々な領域で有効であることが証明されている。
これは、MHSA(Multi-head self-attention)の2次複雑さによるものである。
- 参考スコア(独自算出の注目度): 23.934743358907895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-Supervised Learning (SSL) has proven to be effective in various domains, including speech processing. However, SSL is computationally and memory expensive. This is in part due the quadratic complexity of multi-head self-attention (MHSA). Alternatives for MHSA have been proposed and used in the speech domain, but have yet to be investigated properly in an SSL setting. In this work, we study the effects of replacing MHSA with recent state-of-the-art alternatives that have linear complexity, namely, HyperMixing, Fastformer, SummaryMixing, and Mamba. We evaluate these methods by looking at the speed, the amount of VRAM consumed, and the performance on the SSL MP3S benchmark. Results show that these linear alternatives maintain competitive performance compared to MHSA while, on average, decreasing VRAM consumption by around 20% to 60% and increasing speed from 7% to 65% for input sequences ranging from 20 to 80 seconds.
- Abstract(参考訳): 自己監督学習(SSL)は、音声処理を含む様々な領域で有効であることが証明されている。
しかし、SSLは計算量が多く、メモリは高価である。
これは、MHSA(Multi-head self-attention)の二次的な複雑さによるものである。
MHSAの代替案が提案され、音声領域で使用されているが、SSL設定ではまだ適切に調査されていない。
本研究では,MHSAを線形複雑性を持つ最近の最先端の代替品であるHyperMixing, Fastformer, SummaryMixing, Mambaに置き換える効果について検討する。
SSL MP3Sベンチマークの速度, VRAM消費量, 性能を調べた結果, これらの手法の評価を行った。
その結果,20秒から80秒間の入力シーケンスでは,VRAM使用量を約20%から60%削減し,7%から65%に高速化した。
関連論文リスト
- Linear-Complexity Self-Supervised Learning for Speech Processing [17.360059094663182]
自己教師付き学習(SSL)モデルは、通常、数十のハイエンドGPUで数週間の事前トレーニングを必要とする。
本稿では,SSLのための線形複雑コンテキストエンコーダを初めて検討する。
論文 参考訳(メタデータ) (2024-07-18T10:34:33Z) - DailyMAE: Towards Pretraining Masked Autoencoders in One Day [37.206816999538496]
マスク付き画像モデリング(MIM)は、ラベルのないデータからデータ表現を学習する上での有効性に注目されている。
本研究では,データロードボトルネックの軽減を目的としたMIMベースのSSLの効率的なトレーニングレシピを提案する。
このライブラリは,ImageNet 1Kデータセット上のMAE-Base/16モデルのトレーニングを,わずか18時間で800エポックで行うことができる。
論文 参考訳(メタデータ) (2024-03-31T00:59:10Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - Joint Prediction and Denoising for Large-scale Multilingual
Self-supervised Learning [69.77973092264338]
我々は、より強力な技術がより効率的な事前トレーニングをもたらし、SSLをより多くの研究グループに開放することを示します。
我々は,WavLMのジョイント予測を拡張し,136言語にまたがる40k時間のデータをデノベーションするWavLabLMを提案する。
このモデルではXLS-Rの性能を94%維持でき、データの3%しか保持できない。
論文 参考訳(メタデータ) (2023-09-26T23:55:57Z) - Full Parameter Fine-tuning for Large Language Models with Limited Resources [55.794732214059806]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、トレーニングには大量のGPUリソースを必要としている。
我々は,メモリ使用量を削減するために,勾配とパラメータの更新を1ステップで融合する新しい計算,LOMO(LOw-Memory Optimization)を提案する。
論文 参考訳(メタデータ) (2023-06-16T11:37:15Z) - Speech separation with large-scale self-supervised learning [41.96634125460265]
WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験において、有望な音声分離(SS)結果を示している。
トレーニング済みデータ(300K時間以上)と微調整データ(10K時間以上)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。
論文 参考訳(メタデータ) (2022-11-09T20:00:21Z) - Exploring Efficient-tuning Methods in Self-supervised Speech Models [53.633222197712875]
自己教師付き学習は、異なる音声タスクの強力な表現を学習することができる。
下流タスクでは、SSLモデルのパラメータは凍結され、アダプタのみがトレーニングされる。
90%以上のパラメータ削減を達成できることを示す。
論文 参考訳(メタデータ) (2022-10-10T11:08:12Z) - Acceleration of Subspace Learning Machine via Particle Swarm
Optimization and Parallel Processing [23.33955958124822]
サブスペース・ラーニング・マシン(SLM)は、一般的な分類および回帰タスクにおいて高い性能を提供するために提案されている。
性能改善は高い計算複雑性を犠牲にして達成される。
実験結果から, 加速SLM法はトレーニング時間で577の高速化率を達成することがわかった。
論文 参考訳(メタデータ) (2022-08-15T06:33:15Z) - Sound and Visual Representation Learning with Multiple Pretraining Tasks [104.11800812671953]
自己管理タスク(SSL)は、データと異なる特徴を明らかにする。
この作業は、下流のすべてのタスクをうまく一般化する複数のSSLタスク(Multi-SSL)を組み合わせることを目的としている。
音響表現の実験では、SSLタスクのインクリメンタルラーニング(IL)によるマルチSSLが、単一のSSLタスクモデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-01-04T09:09:38Z) - Improving Efficiency in Large-Scale Decentralized Distributed Training [58.80224380923698]
通信コストを最小化しつつ、スペクトルギャップを改善して(A)D-PSGDに基づくトレーニングを加速する手法を提案する。
提案手法の有効性を示すために,2000時間Switchboard音声認識タスクとImageNetコンピュータビジョンタスクの実験を行った。
論文 参考訳(メタデータ) (2020-02-04T04:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。