論文の概要: Disambiguation-BERT for N-best Rescoring in Low-Resource Conversational
ASR
- arxiv url: http://arxiv.org/abs/2110.02267v1
- Date: Tue, 5 Oct 2021 18:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 13:39:42.431999
- Title: Disambiguation-BERT for N-best Rescoring in Low-Resource Conversational
ASR
- Title(参考訳): 低リソース会話型ASRにおけるN-best Rescoringのための曖昧なBERT
- Authors: Pablo Ortiz and Simen Burud
- Abstract要約: 外部データ無しで書き起こされた曖昧さに基づいてBERTを微調整するためのデータ効率戦略を提案する。
以上の結果から,単語誤り率を37.2%まで回復させることができた。
本研究では,データの性質がコンテキスト拡張N-best再構成の性能にどのように影響するかを示す。
- 参考スコア(独自算出の注目度): 0.7832189413179361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the inclusion of past conversational context through BERT language
models into a CTC-based Automatic Speech Recognition (ASR) system via N-best
rescoring. We introduce a data-efficient strategy to fine-tune BERT on
transcript disambiguation without external data. Our results show word error
rate recoveries up to 37.2% with context-augmented BERT rescoring. We do this
in low-resource data domains, both in language (Norwegian), tone (spontaneous,
conversational), and topics (parliament proceedings and customer service phone
calls). We show how the nature of the data greatly affects the performance of
context-augmented N-best rescoring.
- Abstract(参考訳): 我々は, BERT言語モデルによる過去の会話文脈を, N-best RescoringによるCTCに基づく自動音声認識(ASR)システムに含めることを検討した。
外部データ無しで文書の曖昧さを微調整するためのデータ効率戦略を提案する。
以上の結果から,単語誤り率を37.2%まで回復させることができた。
言語(ノルウェー語)、トーン(自発的、会話的)、トピック(連絡手続きとカスタマーサービス電話)の両方で、低リソースのデータドメインでこれを行います。
本研究では,データの性質がコンテキスト拡張N-best再構成の性能にどのように影響するかを示す。
関連論文リスト
- Making Retrieval-Augmented Language Models Robust to Irrelevant Context [55.564789967211844]
ALMの重要なデシプラタムは、検索された情報が関連する場合のパフォーマンスをモデル化するのに役立つことである。
近年の研究では、検索の増大がパフォーマンスに悪影響を及ぼすことが示されている。
論文 参考訳(メタデータ) (2023-10-02T18:52:35Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Phoneme-BERT: Joint Language Modelling of Phoneme Sequence and ASR
Transcript [6.696983725360809]
PhonemeBERTは、音素シーケンスとASR文字による共同言語モデルを学び、音素認識表現を学習する。
3つのベンチマークデータセットに対してノイズの多いデータを生成することで、我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2021-02-01T12:45:15Z) - WER we are and WER we think we are [11.819335591315316]
我々は、ベンチマークデータセット上の最新の自動音声認識(ASR)システムによって達成された、非常に低い単語誤り率(WER)に関する最近の報告に対する懐疑論を表現している。
我々は、実生活における自然会話とHUB'05公開ベンチマークのデータセット上で、最先端の商用ASRシステム3つを比較した。
我々は、堅牢なASRシステムのトレーニングとテストのための高品質なアノテーションを備えた実生活のマルチドメインデータセットの作成を支援する一連のガイドラインを定式化する。
論文 参考訳(メタデータ) (2020-10-07T14:20:31Z) - Building Low-Resource NER Models Using Non-Speaker Annotation [58.78968578460793]
言語横断的な手法はこれらの懸念に対処する上で顕著な成功を収めた。
本稿では,Non-Speaker''(NS)アノテーションを用いた低リソース名前付きエンティティ認識(NER)モデル構築のための補完的アプローチを提案する。
NSアノテータの使用は、現代の文脈表現上に構築された言語間メソッドよりも、一貫した結果が得られることを示す。
論文 参考訳(メタデータ) (2020-06-17T03:24:38Z) - An Effective Contextual Language Modeling Framework for Speech
Summarization with Augmented Features [13.97006782398121]
変換器による双方向表現(BERT)モデルが提案され,多くの自然言語処理タスクにおいて記録破りの成功を収めた。
本研究では,不完全な自動音声認識によるネガティブな影響を軽減するために,信頼度スコアを文表現に組み込むことを検討した。
提案手法の有効性をベンチマークデータセットで検証する。
論文 参考訳(メタデータ) (2020-06-01T18:27:48Z) - DialBERT: A Hierarchical Pre-Trained Model for Conversation
Disentanglement [47.403802900555576]
そこで我々は,DialBERT (DialBERT) という新しいモデルを提案する。このモデルでは,局所的およびグローバルなセマンティクスを単一のメッセージストリームに統合し,混在する会話をアンハングリングする。
BERTを用いて発話レベルの各発話ペアのマッチング情報をキャプチャし、BiLSTMを用いてコンテキストレベルの情報を集約し、組み込む。
パラメータがわずか3%増加しただけで、F1-Scoreに基づくBERTと比較して12%の改善が達成された。
論文 参考訳(メタデータ) (2020-04-08T00:54:01Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。