論文の概要: Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices
- arxiv url: http://arxiv.org/abs/2309.09546v1
- Date: Mon, 18 Sep 2023 07:45:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 14:43:24.564673
- Title: Training dynamic models using early exits for automatic speech
recognition on resource-constrained devices
- Title(参考訳): リソース制約装置の自動音声認識における早期出口を用いた動的モデルの訓練
- Authors: George August Wright, Umberto Cappellazzo, Salah Zaiem, Desh Raj,
Lucas Ondel Yang, Daniele Falavigna, Alessio Brutti
- Abstract要約: 本稿では,大語彙音声認識に適用した中間出口分岐に依存する早期出口アーキテクチャの利用について検討する。
以前の作業とは異なり、事前トレーニングされたバックボーンの使用に加えて、初期のアーキテクチャでモデルをゼロからトレーニングします。
公開データセットでの実験では、初期の外部アーキテクチャは、エンコーダ層が少ない場合にパフォーマンスレベルをゼロから保持するだけでなく、単一外部モデルやトレーニング済みモデルを使用する場合と比較してタスクの正確性も向上している。
- 参考スコア(独自算出の注目度): 15.905935926835442
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The possibility of dynamically modifying the computational load of neural
models at inference time is crucial for on-device processing, where
computational power is limited and time-varying. Established approaches for
neural model compression exist, but they provide architecturally static models.
In this paper, we investigate the use of early-exit architectures, that rely on
intermediate exit branches, applied to large-vocabulary speech recognition.
This allows for the development of dynamic models that adjust their
computational cost to the available resources and recognition performance.
Unlike previous works, besides using pre-trained backbones we also train the
model from scratch with an early-exit architecture. Experiments on public
datasets show that early-exit architectures from scratch not only preserve
performance levels when using fewer encoder layers, but also improve task
accuracy as compared to using single-exit models or using pre-trained models.
Additionally, we investigate an exit selection strategy based on posterior
probabilities as an alternative to frame-based entropy.
- Abstract(参考訳): 推論時にニューラルネットワークの計算負荷を動的に修正する可能性は、計算パワーが制限され、時間的に変化するオンデバイス処理に不可欠である。
ニューラルネットワーク圧縮のための確立されたアプローチは存在するが、アーキテクチャ上静的なモデルを提供する。
本稿では,大語彙音声認識に適用した中間出口分岐に依存する早期排他アーキテクチャの利用について検討する。
これにより、計算コストを利用可能なリソースと認識性能に調整する動的モデルの開発が可能になる。
以前の作業とは異なり、事前トレーニングされたバックボーンの使用に加えて、初期のアーキテクチャでモデルをゼロからトレーニングします。
公開データセットでの実験では、初期の外部アーキテクチャは、エンコーダ層が少ない場合にパフォーマンスレベルをゼロから保持するだけでなく、単一外部モデルやトレーニング済みモデルを使用する場合と比較してタスクの正確性も向上している。
さらに,フレームベースのエントロピーの代替として,後部確率に基づく出口選択戦略を検討する。
関連論文リスト
- DAISY: Data Adaptive Self-Supervised Early Exit for Speech Representation Models [55.608981341747246]
本稿では,データ適応型自己監督早期退避(DAISY)を導入する。
DAISYの適応性に関する分析では、ノイズの多いデータ上で(より多くのレイヤを使用して)遅い時間に、クリーンデータ上で(より少ないレイヤを使用して)モデルが早期に(より少ないレイヤを使用して)終了することを示しています。
論文 参考訳(メタデータ) (2024-06-08T12:58:13Z) - Online Resource Allocation for Edge Intelligence with Colocated Model Retraining and Inference [5.6679198251041765]
我々は、トレーニングモデルと推論の精度を適応的にバランスするリソース割り当てを最適化するために、ORRICというオンライン近似アルゴリズムを導入する。
ORRICの競合比は従来の推論オンリーパラダイムよりも優れている。
論文 参考訳(メタデータ) (2024-05-25T03:05:19Z) - A Two-Phase Recall-and-Select Framework for Fast Model Selection [13.385915962994806]
本稿では,2相モデル選択フレームワークを提案する。
これは、ベンチマークデータセット上でモデルのトレーニングパフォーマンスを活用することにより、堅牢なモデルを選択する効率を高めることを目的としている。
提案手法は,従来のベースライン法に比べて約3倍の速度でハイパフォーマンスモデルの選択を容易にすることが実証された。
論文 参考訳(メタデータ) (2024-03-28T14:44:44Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - RLFlow: Optimising Neural Network Subgraph Transformation with World
Models [0.0]
本稿では,ニューラルネットワークのアーキテクチャを最適化するためのモデルベースエージェントを提案する。
提案手法は, 共通の畳み込みネットワーク上での最先端技術の性能に適合し, トランスフォーマースタイルのアーキテクチャでは最大5%性能が向上することを示す。
論文 参考訳(メタデータ) (2022-05-03T11:52:54Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Single-Layer Vision Transformers for More Accurate Early Exits with Less
Overhead [88.17413955380262]
視覚変換器アーキテクチャに基づく早期退避のための新しいアーキテクチャを提案する。
本手法は分類問題と回帰問題の両方に有効であることを示す。
また,音声視覚データ解析において,早期出口に音声と視覚のモダリティを統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-19T13:30:34Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Distributed Training of Deep Neural Network Acoustic Models for
Automatic Speech Recognition [33.032361181388886]
ASRのためのディープニューラルネットワーク音響モデルのための分散トレーニング手法の概要について述べる。
提案手法の収束, 高速化, 認識性能を調べるために, 一般のベンチマークで実験を行った。
論文 参考訳(メタデータ) (2020-02-24T19:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。