論文の概要: Exploring Heterogeneous Characteristics of Layers in ASR Models for More
Efficient Training
- arxiv url: http://arxiv.org/abs/2110.04267v1
- Date: Fri, 8 Oct 2021 17:25:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-11 14:42:42.819069
- Title: Exploring Heterogeneous Characteristics of Layers in ASR Models for More
Efficient Training
- Title(参考訳): 効率的学習のためのasrモデルにおける不均一な層特性の探索
- Authors: Lillian Zhou, Dhruv Guliani, Andreas Kabel, Giovanni Motta,
Fran\c{c}oise Beaufays
- Abstract要約: ランとモデルサイズにまたがるこれらの層の安定性について検討する。
群正規化は, 群形成を乱すことなく適用できる可能性が示唆された。
これらの知見をフェデレートラーニングに適用して,トレーニング手順の改善を図る。
- 参考スコア(独自算出の注目度): 1.3999481573773072
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based architectures have been the subject of research aimed at
understanding their overparameterization and the non-uniform importance of
their layers. Applying these approaches to Automatic Speech Recognition, we
demonstrate that the state-of-the-art Conformer models generally have multiple
ambient layers. We study the stability of these layers across runs and model
sizes, propose that group normalization may be used without disrupting their
formation, and examine their correlation with model weight updates in each
layer. Finally, we apply these findings to Federated Learning in order to
improve the training procedure, by targeting Federated Dropout to layers by
importance. This allows us to reduce the model size optimized by clients
without quality degradation, and shows potential for future exploration.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、その過度なパラメータ化とレイヤの非均一な重要性を理解することを目的とした研究の対象となっている。
これらのアプローチを自動音声認識に適用し,最先端のコンフォーメータモデルが一般に複数の環境層を有することを示す。
ランとモデルサイズにまたがるこれらの層の安定性について検討し、群正規化をその形成を乱すことなく使用することを提案し、各層におけるモデル重みの更新とそれらの相関について検討する。
最後に,これらの知見をフェデレーション学習に適用して,レイヤへのフェデレーションドロップアウトを重要視することで,トレーニング手順を改善する。
これにより、品質劣化なしにクライアントによって最適化されたモデルサイズを削減でき、将来の探索の可能性を示します。
関連論文リスト
- Meta-Learning Adaptable Foundation Models [37.458141335750696]
本稿では,PEFTを組み込んだメタラーニングフレームワークを導入し,未知のタスクに容易に適応可能なモデルを学習する。
この設定では、適応可能なパラメータの集合を見つけるための標準再訓練の準最適性を示す。
次に、これらの理論的洞察をRoBERTaモデルの再訓練に適用し、ConvAI2データセット内の会話の継続を予測する。
論文 参考訳(メタデータ) (2024-10-29T17:24:18Z) - Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Enhancing Dynamical System Modeling through Interpretable Machine
Learning Augmentations: A Case Study in Cathodic Electrophoretic Deposition [0.8796261172196743]
本稿では,物理システムのモデリング向上を目的とした包括的データ駆動フレームワークを提案する。
実証的応用として,電顕的電気泳動沈着(EPD)のモデル化を追求する。
論文 参考訳(メタデータ) (2024-01-16T14:58:21Z) - Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。
本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。
これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-05T08:45:44Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - FOSTER: Feature Boosting and Compression for Class-Incremental Learning [52.603520403933985]
ディープニューラルネットワークは、新しいカテゴリーを学ぶ際に破滅的な忘れ方に悩まされる。
本稿では,新たなカテゴリを適応的に学習するためのモデルとして,新しい2段階学習パラダイムFOSTERを提案する。
論文 参考訳(メタデータ) (2022-04-10T11:38:33Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Learning Deep-Latent Hierarchies by Stacking Wasserstein Autoencoders [22.54887526392739]
本稿では, 最適輸送に基づくディープラーニング階層を用いたモデル学習手法を提案する。
提案手法は, VAEの「潜伏変数崩壊」問題を回避することで, 生成モデルをその深部潜伏階層を完全に活用することを可能にした。
論文 参考訳(メタデータ) (2020-10-07T15:04:20Z) - Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。
Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。
大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文 参考訳(メタデータ) (2020-06-15T22:22:56Z) - Towards Interpretable Deep Learning Models for Knowledge Tracing [62.75876617721375]
本稿では,深層学習に基づく知識追跡(DLKT)モデルの解釈可能性問題に対処するポストホック手法を提案する。
具体的には、RNNに基づくDLKTモデルを解釈するために、レイヤワイズ関連伝搬法(LRP)を適用することに焦点をあてる。
実験結果から,DLKTモデルの予測をLRP法で解釈できることを示す。
論文 参考訳(メタデータ) (2020-05-13T04:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。