論文の概要: Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
- arxiv url: http://arxiv.org/abs/2108.07789v1
- Date: Thu, 29 Jul 2021 16:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-22 14:35:09.649085
- Title: Adapting GPT, GPT-2 and BERT Language Models for Speech Recognition
- Title(参考訳): 音声認識のためのGPT, GPT-2, BERT言語モデルの適用
- Authors: Xianrui Zheng, Chao Zhang and Philip C. Woodland
- Abstract要約: 自動音声認識(ASR)のための微調整GPT, GPT-2とその組み合わせを用いた結果を提案する。
双方向のLM出力に基づいて、正しい言語事前確率を計算するための変換法を提案する。
提案された言語事前確率の変換により、BERT は 3% の相対 WERR を受信できる。
- 参考スコア(独自算出の注目度): 14.82259273703819
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models (LMs) pre-trained on massive amounts of text, in particular
bidirectional encoder representations from Transformers (BERT), generative
pre-training (GPT), and GPT-2, have become a key technology for many natural
language processing tasks. In this paper, we present results using fine-tuned
GPT, GPT-2, and their combination for automatic speech recognition (ASR).
Unlike unidirectional LM GPT and GPT-2, BERT is bidirectional whose direct
product of the output probabilities is no longer a valid language prior
probability. A conversion method is proposed to compute the correct language
prior probability based on bidirectional LM outputs in a mathematically exact
way. Experimental results on the widely used AMI and Switchboard ASR tasks
showed that the combination of the fine-tuned GPT and GPT-2 outperformed the
combination of three neural LMs with different architectures trained from
scratch on the in-domain text by up to a 12% relative word error rate reduction
(WERR). Furthermore, the proposed conversion for language prior probabilities
enables BERT to receive an extra 3% relative WERR, and the combination of BERT,
GPT and GPT-2 results in further improvements.
- Abstract(参考訳): 大量のテキストで事前訓練された言語モデル(LM)、特に変換器(BERT)の双方向エンコーダ表現、生成前訓練(GPT)、GPT-2は、多くの自然言語処理タスクにおいて重要な技術となっている。
本稿では, 微調整GPT, GPT-2とそれらの組み合わせによる自動音声認識(ASR)の結果について述べる。
一方向 LM GPT や GPT-2 とは異なり、BERT は双方向であり、出力確率の直接積はもはや有効な言語事前確率ではない。
数学的に正確に双方向のLM出力に基づいて正しい言語事前確率を計算するための変換法を提案する。
AMI と Switchboard の ASR タスクを用いた実験の結果、微調整 GPT と GPT-2 の組み合わせは、ドメイン内テキストのスクラッチから最大12%の相対的単語誤り率削減 (WERR) で訓練された異なるアーキテクチャと3つのニューラル LM の組合せよりも優れていた。
さらに、言語先行確率の変換提案により、BERTは、さらに3%の相対WERRを受信でき、BERT、GPT、GPT-2の組み合わせにより、さらなる改善がもたらされる。
関連論文リスト
- Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。
文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。
ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文 参考訳(メタデータ) (2024-11-12T05:38:43Z) - BELT-2: Bootstrapping EEG-to-Language representation alignment for multi-task brain decoding [24.54436986074267]
本稿では,脳波信号からの符号化性能と復号性能の両立を目的としたマルチタスクモデルであるBELT-2を紹介する。
BELT-2は、1)バイトペア符号化(BPE)レベルのEEG言語アライメントを採用し、2)マルチタスクトレーニングとデコーディングをEEGドメインに統合する最初の試みである。
これらの革新的な試みによりBELT-2は先駆的なブレークスルーとなり、非侵襲的な脳信号からコヒーレントで読みやすい文を復号できる分野における最初の作品となった。
論文 参考訳(メタデータ) (2024-08-28T12:30:22Z) - Enhancing EEG-to-Text Decoding through Transferable Representations from Pre-trained Contrastive EEG-Text Masked Autoencoder [69.7813498468116]
コントラスト型脳波テキストマスケード自動エンコーダ(CET-MAE)を提案する。
また、E2T-PTR(Pretrained Transferable Representationsを用いたEEG-to-Text decoding)と呼ばれるフレームワークを開発し、EEGシーケンスからテキストをデコードする。
論文 参考訳(メタデータ) (2024-02-27T11:45:21Z) - An Empirical Analysis of Parameter-Efficient Methods for Debiasing
Pre-Trained Language Models [55.14405248920852]
各種言語モデルとバイアスタイプを用いたプレフィックスチューニング,プロンプトチューニング,アダプタチューニングによる実験を行い,その性能評価を行った。
パラメータ効率のよい手法は、適応調整が常に最も効果的であるジェンダーバイアスを軽減するのに有効であることがわかった。
また、早急なチューニングは、BERTよりもGPT-2に適しており、人種的・宗教的偏見に関しては、人種的・宗教的偏見が低いことが判明した。
論文 参考訳(メタデータ) (2023-06-06T23:56:18Z) - Translation-Enhanced Multilingual Text-to-Image Generation [61.41730893884428]
テキスト・ツー・イメージ・ジェネレーション(TTI)の研究は、現在でも主に英語に焦点を当てている。
そこで本研究では,多言語TTIとニューラルマシン翻訳(NMT)のブートストラップmTTIシステムへの応用について検討する。
我々は,mTTIフレームワーク内で多言語テキスト知識を重み付け,統合する新しいパラメータ効率アプローチであるEnsemble Adapter (EnsAd)を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:03:52Z) - Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs
without Fine-tuning [96.13057811149827]
Inference-time Policy Adapters (IPA) を提案する。
IPAは、任意のユーザ目標を最適化するために訓練された軽量ポリシーアダプタを通じて、デコード期間中に大規模なベースモデルをガイドする。
既製の言語モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-05-24T11:52:55Z) - AdaVAE: Exploring Adaptive GPT-2s in Variational Auto-Encoders for
Language Modeling [33.18577107062907]
変分自動エンコーダ(VAE)は、自然言語の表現学習と生成の両方を達成するためのデファクト学習パラダイムとなっている。
既存のVAEベースの言語モデルは、基本的なRNNを使用するか、ダウンストリームタスクに2つの訓練済み言語モデル(PLM)を使用する。
本稿では,適応型GPT-2(AdaVAE)を用いた最初のVAEフレームワークを紹介する。
論文 参考訳(メタデータ) (2022-05-12T03:22:07Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Variational Latent-State GPT for Semi-supervised Task-Oriented Dialog
Systems [24.667353107453824]
変分潜在状態GPTモデル(VLS-GPT)は2つのアプローチの強みを組み合わせた最初のモデルである。
我々は,GPTを変分学習に使用する際のメモリ爆発問題を克服する,サンプリング-then-forward-computationの戦略を開発した。
VLS-GPTは、教師のみのベースラインと半教師付きベースラインの両方で著しく優れていた。
論文 参考訳(メタデータ) (2021-09-09T14:42:29Z) - Prior Art Search and Reranking for Generated Patent Text [1.8275108630751844]
我々は、その出力に基づいて、GPTモデルに最もよく似た入力を振り返りに識別するリグレードシステムを実装した。
我々の知る限り、この研究は初めて、その出力に基づいてGPTモデルに最もよく似た入力を振り返りに識別するリグレードシステムを実装する。
論文 参考訳(メタデータ) (2020-09-19T01:16:18Z) - Assessing Discourse Relations in Language Generation from GPT-2 [37.30382375828105]
GPT-2は、左から右への言語モデリングの目的から、生成タスクに適している。
有機生成シナリオと微調整シナリオの両方において, GPT-2の出力における明示的談話関係の有効性について検討した。
論文 参考訳(メタデータ) (2020-04-26T23:29:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。