論文の概要: Innovative Bert-based Reranking Language Models for Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.04950v1
- Date: Sun, 11 Apr 2021 07:55:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:57:58.459148
- Title: Innovative Bert-based Reranking Language Models for Speech Recognition
- Title(参考訳): bertに基づく音声認識のためのリランキング言語モデル
- Authors: Shih-Hsuan Chiu and Berlin Chen
- Abstract要約: 自動音声認識(ASR)によるN-best仮説のランク付けに用いるBERTに基づく文脈化言語モデル(LM)の新たなインスタンス化を提案する。
そこで我々は,BERTを予測問題とするN-best仮説を,N-best仮説(PBERTにより代入された)を前提として,最も低い単語誤り率(WER)を持つオラクル仮説を予測することを目的とする。
特に,N-best仮説の再評価においてPBERTを支援するために,タスク固有のグローバルトピック情報を教師なしの方法で活用することを検討する。
- 参考スコア(独自算出の注目度): 15.762742686665652
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: More recently, Bidirectional Encoder Representations from Transformers (BERT)
was proposed and has achieved impressive success on many natural language
processing (NLP) tasks such as question answering and language understanding,
due mainly to its effective pre-training then fine-tuning paradigm as well as
strong local contextual modeling ability. In view of the above, this paper
presents a novel instantiation of the BERT-based contextualized language models
(LMs) for use in reranking of N-best hypotheses produced by automatic speech
recognition (ASR). To this end, we frame N-best hypothesis reranking with BERT
as a prediction problem, which aims to predict the oracle hypothesis that has
the lowest word error rate (WER) given the N-best hypotheses (denoted by
PBERT). In particular, we also explore to capitalize on task-specific global
topic information in an unsupervised manner to assist PBERT in N-best
hypothesis reranking (denoted by TPBERT). Extensive experiments conducted on
the AMI benchmark corpus demonstrate the effectiveness and feasibility of our
methods in comparison to the conventional autoregressive models like the
recurrent neural network (RNN) and a recently proposed method that employed
BERT to compute pseudo-log-likelihood (PLL) scores for N-best hypothesis
reranking.
- Abstract(参考訳): より最近では、トランスフォーマー(bert)からの双方向エンコーダ表現が提案され、質問応答や言語理解といった多くの自然言語処理(nlp)タスクにおいて、特に、事前学習と微調整の効果的なパラダイムと、強力な局所文脈モデリング能力によって、素晴らしい成功を収めている。
本稿では,自動音声認識(ASR)によるN-best仮説の再評価を目的とした,BERTに基づく文脈型言語モデル(LM)の新たなインスタンス化について述べる。
そこで本研究では,N-best仮説をBERTで再評価した上で,最下位単語誤り率(WER)を有するオラクル仮説(PBERTで記述)を予測することを目的とした。
特に,N-best仮説の再評価(TPBERT)においてPBERTを支援するために,タスク固有のグローバルトピック情報を教師なしで活用することを検討する。
AMIベンチマークコーパスで行った大規模な実験は、リカレントニューラルネットワーク(RNN)のような従来の自己回帰モデルと比較し、N-best仮説の再評価のための擬似log-likelihood(PLL)スコアを計算するためにBERTを用いた手法と比較して、我々の手法の有効性と実現可能性を示した。
関連論文リスト
- Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - A Semi-Bayesian Nonparametric Estimator of the Maximum Mean Discrepancy
Measure: Applications in Goodness-of-Fit Testing and Generative Adversarial
Networks [3.623570119514559]
そこで我々は,GoF(Goness-of-fit)テストのための半ベイズ非パラメトリック(セミBNP)手順を提案する。
提案手法は,最大平均誤差(MMD)測定のための新しいベイズ推定器を提案する。
提案手法は, 誤り仮説の誤認率と受理率を低くすることで, 頻繁なMDD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-05T10:36:21Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - Explaining the Deep Natural Language Processing by Mining Textual
Interpretable Features [3.819533618886143]
T-EBAnOは、深層自然言語モデルに適した、予測ローカルでクラスベースのモデル-言語的説明戦略である。
自動意思決定プロセスの背後にある理由について、客観的で、人間可読で、ドメイン固有の評価を提供する。
論文 参考訳(メタデータ) (2021-06-12T06:25:09Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z) - Stochastic-Sign SGD for Federated Learning with Theoretical Guarantees [49.91477656517431]
量子化に基づく解法は、フェデレートラーニング(FL)において広く採用されている。
上記のプロパティをすべて享受する既存のメソッドはありません。
本稿では,SIGNSGDに基づく直感的かつ理論的に簡易な手法を提案し,そのギャップを埋める。
論文 参考訳(メタデータ) (2020-02-25T15:12:15Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。