論文の概要: Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices
- arxiv url: http://arxiv.org/abs/2309.09546v2
- Date: Thu, 22 Feb 2024 15:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-23 18:40:40.946831
- Title: Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices
- Title(参考訳): リソース制約装置の自動音声認識における早期出口を用いた動的モデルの訓練
- Authors: George August Wright, Umberto Cappellazzo, Salah Zaiem, Desh Raj,
Lucas Ondel Yang, Daniele Falavigna, Mohamed Nabih Ali, Alessio Brutti
- Abstract要約: 初期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
また,スクラッチからトレーニングした早期退避モデルは,エンコーダ層が少ない場合に性能を保ちつつ,単一退避モデルや事前学習モデルと比較してタスク精度が向上することを示した。
結果は、ASRモデルの早期アーキテクチャのトレーニングダイナミクスに関する洞察を与える。
- 参考スコア(独自算出の注目度): 15.879328412777008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to dynamically adjust the computational load of neural models
during inference is crucial for on-device processing scenarios characterised by
limited and time-varying computational resources. A promising solution is
presented by early-exit architectures, in which additional exit branches are
appended to intermediate layers of the encoder. In self-attention models for
automatic speech recognition (ASR), early-exit architectures enable the
development of dynamic models capable of adapting their size and architecture
to varying levels of computational resources and ASR performance demands.
Previous research on early-exiting ASR models has relied on pre-trained
self-supervised models, fine-tuned with an early-exit loss. In this paper, we
undertake an experimental comparison between fine-tuning pre-trained backbones
and training models from scratch with the early-exiting objective. Experiments
conducted on public datasets reveal that early-exit models trained from scratch
not only preserve performance when using fewer encoder layers but also exhibit
enhanced task accuracy compared to single-exit or pre-trained models.
Furthermore, we explore an exit selection strategy grounded in posterior
probabilities as an alternative to the conventional frame-based entropy
approach. Results provide insights into the training dynamics of early-exit
architectures for ASR models, particularly the efficacy of training strategies
and exit selection methods.
- Abstract(参考訳): 推論中にニューラルネットワークの計算負荷を動的に調整する能力は、限られた時間的リソースによって特徴づけられるオンデバイス処理シナリオにおいて不可欠である。
有望なソリューションは、エンコーダの中間層に追加の出口ブランチを付加するearly-exit architecturesによって提示される。
自動音声認識(ASR)のための自己注意モデルでは、早期のアーキテクチャは、そのサイズとアーキテクチャを様々なレベルの計算リソースとASRパフォーマンス要求に適応できる動的モデルの開発を可能にする。
早期退避型ASRモデルに関するこれまでの研究は、早期退避を伴って微調整された事前訓練型自己監督型モデルに依存してきた。
本稿では,事前学習されたバックボーンの微調整と学習モデルのスクラッチからの初期提示目標とを実験的に比較する。
公開データセットで実施された実験によると、スクラッチからトレーニングされた早期エクイットモデルは、エンコーダ層が少ない場合にパフォーマンスを維持するだけでなく、単一エクイットモデルや事前トレーニングモデルのタスク精度も向上している。
さらに,従来のフレームベースエントロピー手法の代替として,後部確率に基づく出口選択戦略を検討する。
その結果,ASRモデルにおける早期終了アーキテクチャのトレーニングダイナミックス,特にトレーニング戦略の有効性と出口選択方法に関する知見が得られた。
関連論文リスト
- Self-Supervised Radio Pre-training: Toward Foundational Models for Spectrogram Learning [6.1339395157466425]
Foundational Deep Learning(DL)モデルは、多種多様で多様なデータセットに基づいてトレーニングされた一般的なモデルである。
本稿では,無線信号を用いた基礎DLモデルの事前学習のための,新しい自己教師型学習手法であるMasked Spectrogram Modelingを紹介する。
論文 参考訳(メタデータ) (2024-11-14T23:56:57Z) - DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。