論文の概要: CopyNE: Better Contextual ASR by Copying Named Entities
- arxiv url: http://arxiv.org/abs/2305.12839v1
- Date: Mon, 22 May 2023 09:03:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 17:21:11.304178
- Title: CopyNE: Better Contextual ASR by Copying Named Entities
- Title(参考訳): CopyNE: 名前付きエンティティのコピーによるコンテキストASRの改善
- Authors: Shilin Zhou, Zhenghua Li, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing
Huai
- Abstract要約: 本稿では,コピネ (CopyNE) と呼ばれる新しい手法を提案する。
AishellとST-cmdsデータセットの実験により、Copyneは文字誤り率(CER)と名前付きエンティティCER(NE-CER)の大幅な削減を実現していることが示された。
強力なWhisperベースラインと比較しても、CopyneはCERとNE-CERの顕著な削減を実現している。
- 参考スコア(独自算出の注目度): 26.52473144718564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent years have seen remarkable progress in automatic speech recognition
(ASR). However, traditional token-level ASR models have struggled with
accurately transcribing entities due to the problem of homophonic and
near-homophonic tokens. This paper introduces a novel approach called CopyNE,
which uses a span-level copying mechanism to improve ASR in transcribing
entities. CopyNE can copy all tokens of an entity at once, effectively avoiding
errors caused by homophonic or near-homophonic tokens that occur when
predicting multiple tokens separately. Experiments on Aishell and ST-cmds
datasets demonstrate that CopyNE achieves significant reductions in character
error rate (CER) and named entity CER (NE-CER), especially in entity-rich
scenarios. Furthermore, even when compared to the strong Whisper baseline,
CopyNE still achieves notable reductions in CER and NE-CER. Qualitative
comparisons with previous approaches demonstrate that CopyNE can better handle
entities, effectively improving the accuracy of ASR.
- Abstract(参考訳): 近年,自動音声認識(ASR)の進歩が目覚ましい。
しかし、従来のトークンレベルのASRモデルは、ホモフォニックおよび近ホモフォニックトークンの問題により、正確な実体の転写に苦慮している。
本稿では,スパンレベルのコピー機構を用いてエンティティの転写におけるasrを改善する新しい手法であるコピーンを提案する。
CopyNEはエンティティのすべてのトークンを一度にコピーすることができ、複数のトークンを別々に予測する際に発生するホモフォニックまたは近ホモフォニックトークンによるエラーを効果的に回避できる。
AishellとST-cmdsデータセットの実験では、特にエンティティリッチシナリオにおいて、CopyNEは文字エラー率(CER)と名前付きエンティティCER(NE-CER)の大幅な削減を実現している。
さらに、強力なWhisperベースラインと比較しても、CopyneはCERとNE-CERの顕著な減少を実現している。
従来のアプローチと定性的な比較は、CopyNEがエンティティをうまく扱えることを示し、ASRの精度を効果的に向上させる。
関連論文リスト
- ReverseNER: A Self-Generated Example-Driven Framework for Zero-Shot Named Entity Recognition with Large Language Models [0.0]
ゼロショット名前付きエンティティ認識タスクにおいて,大規模言語モデル(LLM)の限界を克服するためのフレームワークであるReverseNERを提案する。
文から始めるのではなく、LLMを使用して定義に基づいてエンティティを生成し、それらを全文に拡張する。
その結果,タスク文と意味的・構造的類似性を保ちながら,明確にラベル付けされたエンティティを持つ注釈付き文が得られた。
論文 参考訳(メタデータ) (2024-11-01T12:08:08Z) - Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。
本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。
文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文 参考訳(メタデータ) (2024-09-24T21:42:25Z) - SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [93.94454894142413]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts [44.16141704545044]
本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
論文 参考訳(メタデータ) (2023-06-01T14:56:19Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。