論文の概要: Effect and Analysis of Large-scale Language Model Rescoring on
Competitive ASR Systems
- arxiv url: http://arxiv.org/abs/2204.00212v1
- Date: Fri, 1 Apr 2022 05:20:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-04 14:33:23.366839
- Title: Effect and Analysis of Large-scale Language Model Rescoring on
Competitive ASR Systems
- Title(参考訳): 競合型asrシステムにおける大規模言語モデル補完の効果と解析
- Authors: Takuma Udagawa, Masayuki Suzuki, Gakuto Kurata, Nobuyasu Itoh, George
Saon
- Abstract要約: 大規模言語モデル (LLM) は ASR N-best Rescoring に適用されている。
本研究では,LLM再構成を最も競争力のあるASRベースラインである Conformer-Transducer モデルに組み込む。
- 参考スコア(独自算出の注目度): 30.873546090458678
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale language models (LLMs) such as GPT-2, BERT and RoBERTa have been
successfully applied to ASR N-best rescoring. However, whether or how they can
benefit competitive, near state-of-the-art ASR systems remains unexplored. In
this study, we incorporate LLM rescoring into one of the most competitive ASR
baselines: the Conformer-Transducer model. We demonstrate that consistent
improvement is achieved by the LLM's bidirectionality, pretraining, in-domain
finetuning and context augmentation. Furthermore, our lexical analysis sheds
light on how each of these components may be contributing to the ASR
performance.
- Abstract(参考訳): GPT-2、BERT、RoBERTaのような大規模言語モデル (LLM) は、ASR N-best Rescoringに適用されている。
しかし、彼らが競争力を享受できるかどうかに関わらず、最先端のasrシステムはまだ未調査のままである。
本研究では,LLM再構成を最も競争力のあるASRベースラインである Conformer-Transducer モデルに組み込む。
我々は,LLMの双方向性,事前学習,ドメイン内微調整,コンテキスト拡張によって一貫した改善が達成されることを実証した。
さらに,各成分がASR性能にどのように寄与しているかを語彙解析により明らかにした。
関連論文リスト
- In-Context Symbolic Regression: Leveraging Large Language Models for Function Discovery [5.2387832710686695]
本稿では,記号回帰のタスクにLarge Language Models(LLM)を利用する,最初の包括的フレームワークを紹介する。
In-Context Symbolic Regression (ICSR) は、外部LLMで関数形式を反復的に洗練し、その係数を外部LLMで決定するSR手法である。
以上の結果から,LLMは与えられたデータに適合するシンボリック方程式の発見に成功し,最高のSRベースラインの総合性能を4つのベンチマークで評価した。
論文 参考訳(メタデータ) (2024-04-29T20:19:25Z) - Exploiting Self-Supervised Constraints in Image Super-Resolution [72.35265021054471]
本稿では,SSC-SRと呼ばれる単一画像超解像のための新しい自己監督制約を提案する。
SSC-SRは、安定性を高めるために指数移動平均によって更新された二重非対称パラダイムとターゲットモデルを用いることで、画像の複雑さのばらつきに一意に対処する。
SSC-SRフレームワークはさまざまなベンチマークデータセットに対して,EDSR平均0.1dB,SwinIR平均0.06dBの大幅な拡張を実現している。
論文 参考訳(メタデータ) (2024-03-30T06:18:50Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Enhancing and Adversarial: Improve ASR with Speaker Labels [49.73714831258699]
そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
論文 参考訳(メタデータ) (2022-11-11T17:40:08Z) - FeaRLESS: Feature Refinement Loss for Ensembling Self-Supervised
Learning Features in Robust End-to-end Speech Recognition [34.40924909515384]
エンド・ツー・エンド(E2E)ASRモデルにおける様々な融合手法を用いた多様なSSLR組合せの有効性について検討する。
提案した「FeaRLESS学習機能」は,WSJとFearless Steps Challenge(FSC)のコーパスにおいて,機能改善を伴わないシステムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-30T06:39:40Z) - Consistent Training and Decoding For End-to-end Speech Recognition Using
Lattice-free MMI [67.13999010060057]
本稿では,LF-MMI基準をE2E ASRフレームワークに統合する新たな手法を提案する。
LF-MMI基準の導入は、一貫して大きなパフォーマンス改善をもたらすことが実験的に示唆されている。
論文 参考訳(メタデータ) (2021-12-05T07:30:17Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。