論文の概要: DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models
- arxiv url: http://arxiv.org/abs/2406.05464v1
- Date: Sat, 8 Jun 2024 12:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:35:37.900705
- Title: DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models
- Title(参考訳): DAISY:音声表現モデルのためのデータ適応型自己監督型早期出力
- Authors: Tzu-Quan Lin, Hung-yi Lee, Hao Tang,
- Abstract要約: 本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
- 参考スコア(独自算出の注目度): 55.608981341747246
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised speech models have shown to be useful for various tasks, but their large size limits the use in devices with low computing power and memory. In this work, we explore early exit, an approach for reducing latency by exiting the forward process of a network early. Most approaches of early exit need a separate early exit model for each task, with some even requiring fine-tuning of the entire pretrained model. We introduce Data Adaptive Self-Supervised Early Exit (DAISY), an approach that decides when to exit based on the self-supervised loss, eliminating the need for multiple round of training and fine-tuning. DAISY matches the performance of HuBERT on the MiniSUPERB benchmark, but with much faster inference times. Our analysis on the adaptivity of DAISY shows that the model exits early (using fewer layers) on clean data while exits late (using more layers) on noisy data, dynamically adjusting the computational cost of inference based on the noise level of each sample.
- Abstract(参考訳): 自己教師付き音声モデルは様々なタスクに有用であることが示されているが、その大きなサイズは計算能力とメモリが低いデバイスでの使用を制限する。
本研究では,ネットワークのフォワードプロセスの早期終了によるレイテンシ低減手法であるアーリーエグジットについて検討する。
アーリーエグジットのほとんどのアプローチでは、各タスクごとに別々のアーリーエグジットモデルが必要であり、一部では事前訓練されたモデル全体の微調整も必要である。
我々は,データ適応型自己監督早期退避(DAISY)を導入する。これは,自己監督的損失に基づいていつ退避するかを決定するアプローチであり,複数ラウンドのトレーニングや微調整は不要である。
DAISY は MiniSUPERB ベンチマークで HuBERT のパフォーマンスと一致しているが、推論時間の方がはるかに速い。
DAISYの適応性に関する分析では, ノイズレベルに基づいて推論の計算コストを動的に調整し, クリーンデータ上で早期に(より少ない層を用いて)退避し, ノイズデータ上で(より多くの層を用いて)退避することを示す。
関連論文リスト
- Truncated Consistency Models [57.50243901368328]
トレーニング一貫性モデルは、PF ODE 軌道に沿ったすべての中間点を対応するエンドポイントにマッピングする学習を必要とする。
このトレーニングパラダイムが一貫性モデルの1ステップ生成性能を制限することを実証的に見出した。
整合性関数の新しいパラメータ化と2段階の訓練手順を提案し,時間外学習が崩壊することを防ぐ。
論文 参考訳(メタデータ) (2024-10-18T22:38:08Z) - RAEE: A Training-Free Retrieval-Augmented Early Exiting Framework for Efficient Inference [20.250550771195726]
本稿では、効率的な推論のためのトレーニング不要な検索拡張早期実行フレームワークであるRAEEを提案する。
実験の結果,提案したRAEEは推論を著しく加速できることが示された。
RAEEは8つの分類タスクで最先端のゼロショットのパフォーマンスも達成している。
論文 参考訳(メタデータ) (2024-05-24T04:01:24Z) - Learning with Noisy Foundation Models [95.50968225050012]
本論文は、事前学習データセットにおけるノイズの性質を包括的に理解し分析する最初の研究である。
雑音の悪影響を緩和し、一般化を改善するため、特徴空間に適応するチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2024-03-11T16:22:41Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices [15.879328412777008]
初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
論文 参考訳(メタデータ) (2023-09-18T07:45:16Z) - Match to Win: Analysing Sequences Lengths for Efficient Self-supervised
Learning in Speech and Audio [19.865050806327147]
自己教師型学習は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。
本稿では、特定配列長の異なるSSL事前トレーニングに関する最初の実証的研究について述べる。
ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。
論文 参考訳(メタデータ) (2022-09-30T16:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。