論文の概要: Automatic Learning of Subword Dependent Model Scales
- arxiv url: http://arxiv.org/abs/2110.09324v1
- Date: Mon, 18 Oct 2021 13:48:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 18:19:34.603720
- Title: Automatic Learning of Subword Dependent Model Scales
- Title(参考訳): サブワード依存モデル尺度の自動学習
- Authors: Felix Meyer and Wilfried Michel and Mohammad Zeineldeen and Ralf
Schl\"uter and Hermann Ney
- Abstract要約: 本研究では,アテンションエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールを手動チューニングと同様に効果的に学習できることを示す。
提案手法は,手動では調整できないサブワード依存モデル尺度に拡張され,LBSは7%,SWBは3%改善した。
- 参考スコア(独自算出の注目度): 50.105894487730545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To improve the performance of state-of-the-art automatic speech recognition
systems it is common practice to include external knowledge sources such as
language models or prior corrections. This is usually done via log-linear model
combination using separate scaling parameters for each model. Typically these
parameters are manually optimized on some held-out data.
In this work we propose to optimize these scaling parameters via automatic
differentiation and stochastic gradient decent similar to the neural network
model parameters. We show on the LibriSpeech (LBS) and Switchboard (SWB)
corpora that the model scales for a combination of attentionbased
encoder-decoder acoustic model and language model can be learned as effectively
as with manual tuning. We further extend this approach to subword dependent
model scales which could not be tuned manually which leads to 7% improvement on
LBS and 3% on SWB. We also show that joint training of scales and model
parameters is possible and gives additional 6% improvement on LBS.
- Abstract(参考訳): 最先端の自動音声認識システムの性能向上には,言語モデルや事前修正などの外部知識源を組み込むことが一般的である。
これは通常、各モデルごとに別々のスケーリングパラメータを使用して、ログ-線形モデルの組み合わせによって行われる。
一般的にこれらのパラメータは、いくつかの保留データに手動で最適化される。
本研究では,ニューラルネットワークモデルパラメータとよく似た,自動微分と確率勾配によるスケーリングパラメータの最適化を提案する。
librispeech(lbs)とswitchboard(swb)コーポラ(コーポラ)に対して,注意に基づくエンコーダ・デコーダ音響モデルと言語モデルを組み合わせたモデルスケールが,手作業によるチューニングと同じくらい効果的に学習できることを示す。
さらに本手法を,手作業では調整できないサブワード依存モデル尺度に拡張し,LBSは7%,SWBは3%改善した。
また,スケールとモデルパラメータの協調トレーニングが可能であり,LBSでは6%の改善が見られた。
関連論文リスト
- ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - LLM-based speaker diarization correction: A generalizable approach [0.0]
ダイアリゼーション補正のための大規模言語モデル(LLM)を後処理のステップとして使用することを検討した。
モデルがフィッシャーコーパスのホールドアウトデータセットと独立データセットのダイアリゼーション精度を向上させる能力を測定した。
論文 参考訳(メタデータ) (2024-06-07T13:33:22Z) - Observational Scaling Laws and the Predictability of Language Model Performance [51.2336010244645]
本稿では、モデルトレーニングを回避し、100のパブリックモデルからスケーリング法則を構築する観察的アプローチを提案する。
いくつかの創発現象が滑らかでシグモダルな挙動を辿り、小さなモデルから予測可能であることを示す。
言語モデル機能の改善が進むにつれて、Chain-of-ThoughtやSelf-Consistencyといったポストトレーニング介入の影響を予測する方法を示す。
論文 参考訳(メタデータ) (2024-05-17T17:49:44Z) - Automating Model Comparison in Factor Graphs [3.119859292303397]
本稿では,Forney型因子グラフ上のメッセージパッシングによるベイズモデルの平均化,選択,組み合わせを,独自の混合ノードで効率的に自動化する。
このアプローチは、モデル設計サイクルを短縮し、複雑な時間変化のプロセスをモデル化するために、階層的および時間的モデルへの直接拡張を可能にする。
論文 参考訳(メタデータ) (2023-06-09T15:33:30Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Investigation of Ensemble features of Self-Supervised Pretrained Models
for Automatic Speech Recognition [0.3007949058551534]
自己教師付き学習(SSL)に基づくモデルは、下流の音声タスクのパフォーマンス向上に使用できる強力な表現を生成することが示されている。
本稿では、これらのSSL表現とモデルのアンサンブルを用いて、様々な事前訓練されたモデルによって抽出された特徴の相補的な性質を活用することを提案する。
論文 参考訳(メタデータ) (2022-06-11T12:43:00Z) - Dynamically-Scaled Deep Canonical Correlation Analysis [77.34726150561087]
カノニカル相関解析 (CCA) は, 2つのビューの特徴抽出手法である。
本稿では,入力依存の正準相関モデルをトレーニングするための新しい動的スケーリング手法を提案する。
論文 参考訳(メタデータ) (2022-03-23T12:52:49Z) - The Power of Scale for Parameter-Efficient Prompt Tuning [4.481348281462904]
プロンプトチューニング」は、特定の下流タスクを実行するために、凍結した言語モデルに「ソフトプロンプト」を学習するための単純なメカニズムである。
我々のエンドツーエンドの学習アプローチは、GPT-3の「ファウショット」学習を大きなマージンで上回ります。
論文 参考訳(メタデータ) (2021-04-18T03:19:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。