論文の概要: Exploring Energy-based Language Models with Different Architectures and
Training Methods for Speech Recognition
- arxiv url: http://arxiv.org/abs/2305.12676v3
- Date: Mon, 29 May 2023 06:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 11:17:20.204090
- Title: Exploring Energy-based Language Models with Different Architectures and
Training Methods for Speech Recognition
- Title(参考訳): 異なるアーキテクチャと音声認識のための訓練方法を用いたエネルギーベース言語モデルの探索
- Authors: Hong Liu, Zhaobiao Lv, Zhijian Ou, Wenbo Zhao, Qing Xiao
- Abstract要約: エネルギーベース言語モデル(ELM)は、自然文の非正規化分布をパラメータ化する。
本稿では,エネルギ関数の異なるアーキテクチャと異なるトレーニング手法について検討し,音声認識におけるEMMの能力について検討する。
- 参考スコア(独自算出の注目度): 23.970716487502273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Energy-based language models (ELMs) parameterize an unnormalized distribution
for natural sentences and are radically different from popular autoregressive
language models (ALMs). As an important application, ELMs have been
successfully used as a means for calculating sentence scores in speech
recognition, but they all use less-modern CNN or LSTM networks. The recent
progress in Transformer networks and large pretrained models such as BERT and
GPT2 opens new possibility to further advancing ELMs. In this paper, we explore
different architectures of energy functions and different training methods to
investigate the capabilities of ELMs in rescoring for speech recognition, all
using large pretrained models as backbones.
- Abstract(参考訳): エネルギーベース言語モデル(elms)は自然文の非正規化分布をパラメータ化し、一般的な自己回帰言語モデル(alms)とは根本的に異なる。
重要な応用として、EMMは音声認識における文のスコアを計算する手段としてうまく使われてきたが、いずれもより現代的なCNNやLSTMネットワークを使用している。
近年の Transformer ネットワークと BERT や GPT2 のような大規模事前学習モデルの発展により,EMM をさらに進化させる新たな可能性が高まっている。
本稿では,エネルギー関数の異なるアーキテクチャと異なる学習手法について検討し,音声認識のためのリコーリングにおけるelmの能力について検討する。
関連論文リスト
- MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition [12.77573161345651]
本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。
提案モデルは,音響特徴抽出や音響・言語モデリングを含む,ASRプロセス全体の最適化を可能にする。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - Pre-trained Language Models for Keyphrase Generation: A Thorough
Empirical Study [76.52997424694767]
事前学習言語モデルを用いて,キーフレーズ抽出とキーフレーズ生成の詳細な実験を行った。
PLMは、競争力のある高リソース性能と最先端の低リソース性能を持つことを示す。
さらに,領域内のBERTライクなPLMを用いて,強大かつデータ効率のよいキーフレーズ生成モデルを構築できることが示唆された。
論文 参考訳(メタデータ) (2022-12-20T13:20:21Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - TEASEL: A Transformer-Based Speech-Prefixed Language Model [4.014524824655106]
マルチモーダル言語分析は、話者の言葉、音響アノテーション、表情を同時にモデル化することを目的としている。
lexiconの機能は、Transformerベースのモデルを通じて大きなコーパスで事前訓練されているため、他のモダリティよりも優れている。
高いパフォーマンスにもかかわらず、新しい自己教師付き学習(SSL)トランスフォーマーを任意のモダリティでトレーニングすることは、データ不足のため通常は不可能である。
論文 参考訳(メタデータ) (2021-09-12T14:08:57Z) - Joint Energy-based Model Training for Better Calibrated Natural Language
Understanding Models [61.768082640087]
自然言語理解タスクのための事前学習テキストエンコーダの微調整中に、共同エネルギーベースモデル(EBM)トレーニングを検討します。
実験では、EMMトレーニングはモデルが強力なベースラインに匹敵するより良いキャリブレーションに達するのに役立つことが示されています。
論文 参考訳(メタデータ) (2021-01-18T01:41:31Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - A Convolutional Deep Markov Model for Unsupervised Speech Representation
Learning [32.59760685342343]
確率的潜在変数モデルは、音声からの言語表現学習のための自己教師付き学習アプローチの代替を提供する。
本研究では,深いニューラルネットワークによってモデル化された非線形放出と遷移関数を持つガウス状態空間モデルであるConvDMMを提案する。
大規模音声データセット(LibriSpeech)で訓練すると、ConvDMMは複数の自己教師付き特徴抽出法よりもはるかに優れた特徴を生成する。
論文 参考訳(メタデータ) (2020-06-03T21:50:20Z) - EEG based Continuous Speech Recognition using Transformers [13.565270550358397]
エンド・ツー・エンド・エンド・トランスフォーマーを用いた自動音声認識(ASR)モデルを用いて,脳波特徴量を用いた連続音声認識について検討した。
その結果, トランスフォーマーを用いたモデルでは, 繰り返しニューラルネットワーク(RNN)に基づくシーケンス・ツー・シーケンス脳波モデルと比較して, トレーニングの高速化が示されている。
論文 参考訳(メタデータ) (2019-12-31T08:36:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。