論文の概要: CopyNE: Better Contextual ASR by Copying Named Entities
- arxiv url: http://arxiv.org/abs/2305.12839v1
- Date: Mon, 22 May 2023 09:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:21:11.304178
- Title: CopyNE: Better Contextual ASR by Copying Named Entities
- Title(参考訳): CopyNE: 名前付きエンティティのコピーによるコンテキストASRの改善
- Authors: Shilin Zhou, Zhenghua Li, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing
Huai
- Abstract要約: 本稿では,コピネ (CopyNE) と呼ばれる新しい手法を提案する。
AishellとST-cmdsデータセットの実験により、Copyneは文字誤り率(CER)と名前付きエンティティCER(NE-CER)の大幅な削減を実現していることが示された。
強力なWhisperベースラインと比較しても、CopyneはCERとNE-CERの顕著な削減を実現している。
- 参考スコア(独自算出の注目度): 26.52473144718564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen remarkable progress in automatic speech recognition
(ASR). However, traditional token-level ASR models have struggled with
accurately transcribing entities due to the problem of homophonic and
near-homophonic tokens. This paper introduces a novel approach called CopyNE,
which uses a span-level copying mechanism to improve ASR in transcribing
entities. CopyNE can copy all tokens of an entity at once, effectively avoiding
errors caused by homophonic or near-homophonic tokens that occur when
predicting multiple tokens separately. Experiments on Aishell and ST-cmds
datasets demonstrate that CopyNE achieves significant reductions in character
error rate (CER) and named entity CER (NE-CER), especially in entity-rich
scenarios. Furthermore, even when compared to the strong Whisper baseline,
CopyNE still achieves notable reductions in CER and NE-CER. Qualitative
comparisons with previous approaches demonstrate that CopyNE can better handle
entities, effectively improving the accuracy of ASR.
- Abstract(参考訳): 近年,自動音声認識(ASR)の進歩が目覚ましい。
しかし、従来のトークンレベルのASRモデルは、ホモフォニックおよび近ホモフォニックトークンの問題により、正確な実体の転写に苦慮している。
本稿では,スパンレベルのコピー機構を用いてエンティティの転写におけるasrを改善する新しい手法であるコピーンを提案する。
CopyNEはエンティティのすべてのトークンを一度にコピーすることができ、複数のトークンを別々に予測する際に発生するホモフォニックまたは近ホモフォニックトークンによるエラーを効果的に回避できる。
AishellとST-cmdsデータセットの実験では、特にエンティティリッチシナリオにおいて、CopyNEは文字エラー率(CER)と名前付きエンティティCER(NE-CER)の大幅な削減を実現している。
さらに、強力なWhisperベースラインと比較しても、CopyneはCERとNE-CERの顕著な減少を実現している。
従来のアプローチと定性的な比較は、CopyNEがエンティティをうまく扱えることを示し、ASRの精度を効果的に向上させる。
関連論文リスト
- Using Large Language Model for End-to-End Chinese ASR and NER [14.176601983200527]
本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-21T03:15:05Z) - LibriSpeech-PC: Benchmark for Evaluation of Punctuation and
Capitalization Capabilities of end-to-end ASR Models [58.790604613878216]
我々は,エンドツーエンドのASRモデルの句読点と大文字化予測能力を評価するために,LibriSpeech-PCベンチマークを導入する。
このベンチマークには、リストアされた句読点とキャピタライゼーションを備えたLibriSpeech-PCデータセット、句読点に焦点を当てたPunctuation Error Rate (PER)と呼ばれる新しい評価指標、および初期ベースラインモデルが含まれている。
論文 参考訳(メタデータ) (2023-10-04T16:23:37Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Offline Detection of Misspelled Handwritten Words by Convolving
Recognition Model Features with Text Labels [0.0]
テキストに対して手書き画像を比較する作業を紹介する。
我々のモデルの分類ヘッドは、最先端の生成逆数ネットワークを用いて生成された合成データに基づいて訓練されている。
このような大規模なパフォーマンス向上は、ヒューマン・イン・ザ・ループの自動化を利用したアプリケーションの生産性を大幅に向上させる可能性がある。
論文 参考訳(メタデータ) (2023-09-18T21:13:42Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - FastCorrect: Fast Error Correction with Edit Alignment for Automatic
Speech Recognition [90.34177266618143]
編集アライメントに基づく新しいNAR誤り訂正モデルであるFastCorrectを提案する。
fastcorrectは推論を6-9倍高速化し、自己回帰補正モデルと比較して精度を8-14%向上させる。
ニューラルマシン翻訳で採用されている一般的なNARモデルの精度を、大きなマージンで上回っています。
論文 参考訳(メタデータ) (2021-05-09T05:35:36Z) - Hallucination of speech recognition errors with sequence to sequence
learning [16.39332236910586]
プレーンテキストデータを使用して話し言葉理解やASRのためのシステムのトレーニングを行う場合、証明された戦略は、ASR出力が金の転写を与えるであろうものを幻覚することです。
本稿では,asr語列の幻覚的出力,入力語列の条件づけ,対応する音素列を直接予測する新しいエンドツーエンドモデルを提案する。
これにより、ドメイン内ASRシステムの未確認データの転写からのエラーのリコール、およびドメイン外ASRシステムの非関連タスクからのオーディオの転写の以前の結果が改善されます。
論文 参考訳(メタデータ) (2021-03-23T02:09:39Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。