論文の概要: Automatic Learning of Subword Dependent Model Scales
- arxiv url: http://arxiv.org/abs/2110.09324v1
- Date: Mon, 18 Oct 2021 13:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 18:19:34.603720
- Title: Automatic Learning of Subword Dependent Model Scales
- Title(参考訳): サブワード依存モデル尺度の自動学習
- Authors: Felix Meyer and Wilfried Michel and Mohammad Zeineldeen and Ralf
Schl\"uter and Hermann Ney
- Abstract要約: 本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。
提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
- 参考スコア(独自算出の注目度): 50.105894487730545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the performance of state-of-the-art automatic speech recognition
systems it is common practice to include external knowledge sources such as
language models or prior corrections. This is usually done via log-linear model
combination using separate scaling parameters for each model. Typically these
parameters are manually optimized on some held-out data.
In this work we propose to optimize these scaling parameters via automatic
differentiation and stochastic gradient decent similar to the neural network
model parameters. We show on the LibriSpeech (LBS) and Switchboard (SWB)
corpora that the model scales for a combination of attentionbased
encoder-decoder acoustic model and language model can be learned as effectively
as with manual tuning. We further extend this approach to subword dependent
model scales which could not be tuned manually which leads to 7% improvement on
LBS and 3% on SWB. We also show that joint training of scales and model
parameters is possible and gives additional 6% improvement on LBS.
- Abstract(参考訳): 最先端の自動音声認識システムの性能向上には,言語モデルや事前修正などの外部知識源を組み込むことが一般的である。
これは通常、各モデルごとに別々のスケーリングパラメータを使用して、ログ-線形モデルの組み合わせによって行われる。
一般的にこれらのパラメータは、いくつかの保留データに手動で最適化される。
本研究では,ニューラルネットワークモデルパラメータとよく似た,自動微分と確率勾配によるスケーリングパラメータの最適化を提案する。
librispeech(lbs)とswitchboard(swb)コーポラ(コーポラ)に対して,注意に基づくエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールが,手作業によるチューニングと同じくらい効果的に学習できることを示す。
さらに本手法を,手作業では調整できないサブワード依存モデル尺度に拡張し,LBSは7%,SWBは3%改善した。
また,スケールとモデルパラメータの協調トレーニングが可能であり,LBSでは6%の改善が見られた。
関連論文リスト
- Improving Speech Inversion Through Self-Supervised Embeddings and
Enhanced Tract Variables [2.3020018305241337]
自己教師付き学習(SSL)モデルを用いて得られた音声表現を利用することによる影響について検討する。
また, 改良された幾何学的変換モデルを用いて, 新規なトラクション変数(TV)の組み入れについて検討した。
本研究は、SSLモデルによるリッチな特徴表現の深い影響と、SIシステムの強化機能に対するターゲットテレビによる幾何学的変換の改善を裏付けるものである。
論文 参考訳(メタデータ) (2023-09-17T09:18:04Z) - How to Scale Your EMA [20.94711634514331]
モデルEMAが存在する場合、最適化のためのスケーリングルールを提供する。
本稿では,モデルEMAが対象モデルの最適化に寄与するルールの有効性を示す。
自己指導型学習では、パフォーマンスを犠牲にすることなく、バッチサイズ24,576までのBYOLのトレーニングを可能にする。
論文 参考訳(メタデータ) (2023-07-25T20:33:48Z) - Automating Model Comparison in Factor Graphs [3.119859292303397]
本稿では,Forney型因子グラフ上のメッセージパッシングによるベイズモデルの平均化,選択,組み合わせを,独自の混合ノードで効率的に自動化する。
このアプローチは、モデル設計サイクルを短縮し、複雑な時間変化のプロセスをモデル化するために、階層的および時間的モデルへの直接拡張を可能にする。
論文 参考訳(メタデータ) (2023-06-09T15:33:30Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Investigation of Ensemble features of Self-Supervised Pretrained Models
for Automatic Speech Recognition [0.3007949058551534]
自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。
本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
論文 参考訳(メタデータ) (2022-06-11T12:43:00Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。
我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2021-04-18T03:19:26Z) - AutoFIS: Automatic Feature Interaction Selection in Factorization Models
for Click-Through Rate Prediction [75.16836697734995]
自動特徴相互作用選択(AutoFIS)と呼ばれる2段階のアルゴリズムを提案する。
AutoFISは、目標モデルを収束させるためにトレーニングするのと同等の計算コストで、因子化モデルに対する重要な特徴的相互作用を自動的に識別することができる。
AutoFISはHuawei App Storeレコメンデーションサービスのトレーニングプラットフォームにデプロイされている。
論文 参考訳(メタデータ) (2020-03-25T06:53:54Z) - Learnable Bernoulli Dropout for Bayesian Deep Learning [53.79615543862426]
Learnable Bernoulli Dropout (LBD) は、他のモデルパラメータと共に最適化されたパラメータとしてドロップアウト率を考慮する新しいモデルに依存しないドロップアウトスキームである。
LBDは画像分類とセマンティックセグメンテーションにおける精度と不確実性の推定を改善する。
論文 参考訳(メタデータ) (2020-02-12T18:57:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。