論文の概要: Keep what you need : extracting efficient subnetworks from large audio representation models
- arxiv url: http://arxiv.org/abs/2502.12925v1
- Date: Tue, 18 Feb 2025 15:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:06:07.371932
- Title: Keep what you need : extracting efficient subnetworks from large audio representation models
- Title(参考訳): 必要なものを維持する : 大規模音声表現モデルから効率的なサブネットを抽出する
- Authors: David Genova, Philippe Esling, Tom Hurlin,
- Abstract要約: 事前学習された表現モデルの層間において学習可能なバイナリマスクを導入する。
下流タスクでエンド・ツー・エンドのモデルをトレーニングするとき、私たちは全体目標に疎結合による損失を加えます。
トレーニングが完了すると、マスクされた計算ユニットがネットワークから削除され、大幅なパフォーマンス向上が示唆される。
- 参考スコア(独自算出の注目度): 0.8798470556253869
- License:
- Abstract: Recently, research on audio foundation models has witnessed notable advances, as illustrated by the ever improving results on complex downstream tasks. Subsequently, those pretrained networks have quickly been used for various audio applications. These improvements have however resulted in a considerable increase both in size and complexity of these models. Along the environmental concerns this issue raises, this prevents the deployment of such networks on consumer-level devices, and precludes their use for real-time applications. Moreover, this appears contradictory with the specificity of the tasks for which these models are used, which are often simpler compared to extracting a rich, multi-purpose representation from any type of audio data. In this paper, we address this issue with a simple, yet effective method to extract lightweight specialist subnetworks from large foundation models. Specifically, we introduce learnable binary masks in-between the layers of a pretrained representation model. When training the end-to-end model on a downstream task, we add a sparsity-inducing loss to the overall objective, hence learning a compact subnetwork specialized on a single task. Importantly, the weights of the foundation model are kept frozen, resulting into low additional training costs. Once trained, the masked computational units can then be removed from the network, implying significant performance gains. We assess our method on three widespread audio foundation models, each based on a different backbone architecture, and illustrate its effectiveness on common audio representation evaluation tasks, as well as its versatility on both speech, music, and general audio. Code for reproducing the results and supporting webpage are available at https://github.com/gnvIRCAM/Audio-representation-trimming
- Abstract(参考訳): 近年, 音声基礎モデルの研究は, 複雑な下流タスクにおいて, 常に改善された結果によって示されるように, 顕著な進歩をみせている。
その後、これらの事前訓練されたネットワークは、様々なオーディオアプリケーションに急速に使われてきた。
しかし、これらの改善により、これらのモデルのサイズと複雑さが大幅に向上した。
この問題が引き起こす環境上の懸念に沿って、このようなネットワークがコンシューマレベルのデバイスに展開されることを防ぎ、リアルタイムアプリケーションでの使用を妨げている。
さらに、これはこれらのモデルが使われるタスクの特異性と矛盾しており、あらゆる種類のオーディオデータからリッチで多目的な表現を抽出するのに比べて、しばしば単純である。
本稿では,大規模な基盤モデルから軽量なサブネットワークを抽出する,単純かつ効果的な手法を用いてこの問題に対処する。
具体的には、事前学習された表現モデルの層間において学習可能なバイナリマスクを導入する。
下流タスクでエンド・ツー・エンドのモデルをトレーニングする場合、全体目標にスパーシリティ誘導損失を加えて、単一のタスクに特化しているコンパクトサブネットワークを学習する。
重要なことは、基礎モデルの重みは凍結され、結果としてトレーニングコストが低くなることである。
トレーニングが完了すると、マスクされた計算ユニットがネットワークから削除され、大幅なパフォーマンス向上が示唆される。
提案手法は,それぞれ異なるバックボーンアーキテクチャに基づいて,広義の音声基礎モデルを用いて評価し,一般的な音声表現評価タスクの有効性と,音声,音楽,一般音声の汎用性を示す。
結果の再現とWebページのサポートのためのコードはhttps://github.com/gnvIRCAM/Audio-representation-trimmingで公開されている。
関連論文リスト
- Do We Need to Design Specific Diffusion Models for Different Tasks? Try ONE-PIC [77.8851460746251]
本稿では,超音速拡散モデルに対する単純,効率的,汎用的なアプローチを提案する。
ONE-PICは、追加モジュールを導入することなく、事前訓練された拡散モデルにおける継承された生成能力を向上する。
本手法は,適応プロセスの合理化を図り,低コストで優れた性能を実現する,シンプルで効率的な手法である。
論文 参考訳(メタデータ) (2024-12-07T11:19:32Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Structured Pruning of Self-Supervised Pre-trained Models for Speech
Recognition and Understanding [43.68557263195205]
自己教師付き音声表現学習(SSL)は、様々な下流タスクで有効であることが示されているが、SSLモデルは通常、大きくて遅い。
このような異種ネットワークを扱うための3つのタスク固有の構造化プルーニング手法を提案する。
LibriSpeech と SLURP の実験により,提案手法は従来の wav2vecbase よりも10% から30% の精度で精度が高く,劣化を伴わずに 40% から 50% の削減が可能であった。
論文 参考訳(メタデータ) (2023-02-27T20:39:54Z) - Learning General Audio Representations with Large-Scale Training of
Patchout Audio Transformers [6.002503434201551]
大規模データセットで学習した音声変換器を用いて汎用表現を学習する。
その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T08:39:12Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Backbones-Review: Feature Extraction Networks for Deep Learning and Deep
Reinforcement Learning Approaches [3.255610188565679]
CNNは、大規模なデータサイズに取り組むだけでなく、特定のタスクのさまざまなシナリオをカバーすることができる。
多くのネットワークが提案され、あらゆるAIタスクでDLモデルに使用される有名なネットワークとなっている。
バックボーンは、他の多くのタスクでトレーニングされた既知のネットワークであり、その効果を実証する。
論文 参考訳(メタデータ) (2022-06-16T09:18:34Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Diet deep generative audio models with structured lottery [2.348805691644086]
本研究では,深層再生音声モデルにおける抽選チケット仮説について検討する。
モデル重量の最大95%を精度を著しく低下させることなく除去できることを示す。
本稿では,組込みプラットフォーム上でのディープ・ジェネレーティブ・オーディオ・モデルの実装の可能性について論じる。
論文 参考訳(メタデータ) (2020-07-31T16:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。