論文の概要: CopyNE: Better Contextual ASR by Copying Named Entities
- arxiv url: http://arxiv.org/abs/2305.12839v2
- Date: Mon, 27 May 2024 06:35:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 12:38:03.873940
- Title: CopyNE: Better Contextual ASR by Copying Named Entities
- Title(参考訳): CopyNE: 名前付きエンティティのコピーによるコンテキストASRの改善
- Authors: Shilin Zhou, Zhenghua Li, Yu Hong, Min Zhang, Zhefeng Wang, Baoxing Huai,
- Abstract要約: 我々は、NE辞書からエンティティをコピーできるCopyNEと呼ばれる体系的なメカニズムを設計する。
実験により、CopyNEは従来のアプローチと比較して、エンティティの翻訳精度を一貫して改善することが示された。
- 参考スコア(独自算出の注目度): 35.36208545538822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end automatic speech recognition (ASR) systems have made significant progress in general scenarios. However, it remains challenging to transcribe contextual named entities (NEs) in the contextual ASR scenario. Previous approaches have attempted to address this by utilizing the NE dictionary. These approaches treat entities as individual tokens and generate them token-by-token, which may result in incomplete transcriptions of entities. In this paper, we treat entities as indivisible wholes and introduce the idea of copying into ASR. We design a systematic mechanism called CopyNE, which can copy entities from the NE dictionary. By copying all tokens of an entity at once, we can reduce errors during entity transcription, ensuring the completeness of the entity. Experiments demonstrate that CopyNE consistently improves the accuracy of transcribing entities compared to previous approaches. Even when based on the strong Whisper, CopyNE still achieves notable improvements.
- Abstract(参考訳): エンドツーエンド自動音声認識(ASR)システムは,一般的なシナリオにおいて大きな進歩を遂げている。
しかし、文脈的ASRシナリオにおいて、コンテキスト的名前付きエンティティ(NE)を転写することは依然として困難である。
従来の手法ではNE辞書を利用してこの問題に対処しようと試みてきた。
これらのアプローチはエンティティを個々のトークンとして扱い、トークン・バイ・トークンを生成する。
本稿では,エンティティを分割不能な単位として扱い,ASRにコピーするという考え方を紹介する。
我々は、NE辞書からエンティティをコピーできるCopyNEと呼ばれる体系的なメカニズムを設計する。
エンティティのトークンを一度にコピーすることで、エンティティの書き起こし時のエラーを減らすことができ、エンティティの完全性を保証することができる。
実験により、CopyNEは従来のアプローチと比較して、エンティティの翻訳精度を一貫して改善することが示された。
強力なWhisperをベースとしたとしても、CopyNEは目立った改善を実現している。
関連論文リスト
- SEP: Self-Enhanced Prompt Tuning for Visual-Language Model [68.68025991850115]
SEP(Self-Enhanced Prompt Tuning)という新しいアプローチを導入する。
SEPは、テキストレベルの埋め込みと視覚レベルの埋め込みの両方を強化するために、差別的な事前知識を明示的に取り入れている。
様々なベンチマークやタスクの総合的な評価は、プロンプトチューニングにおけるSEPの有効性を確認している。
論文 参考訳(メタデータ) (2024-05-24T13:35:56Z) - Bypass Temporal Classification: Weakly Supervised Automatic Speech
Recognition with Imperfect Transcripts [44.16141704545044]
本稿では,不完全な学習データを用いた音声認識モデル(ASR)を構築するための新しいアルゴリズムを提案する。
提案アルゴリズムは、特に不正確に転写された音声コーパスを扱う場合、ASRシステムの堅牢性と精度を向上させる。
論文 参考訳(メタデータ) (2023-06-01T14:56:19Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z) - LUKE: Deep Contextualized Entity Representations with Entity-aware
Self-attention [37.111204321059084]
両方向変換器に基づく単語と実体の事前学習した文脈表現を提案する。
我々のモデルは、BERTのマスキング言語モデルに基づく新しい事前訓練タスクを用いて訓練される。
また,変換器の自己認識機構の拡張である自己認識機構を提案する。
論文 参考訳(メタデータ) (2020-10-02T15:38:03Z) - Autoregressive Entity Retrieval [55.38027440347138]
エンティティは、知識の表現と集約の方法の中心にあります。
クエリが与えられたエンティティを検索できることは、エンティティリンクやオープンドメインの質問応答のような知識集約的なタスクに基本となる。
本稿では,自己回帰方式でトークン・バイ・トークンを左から右に生成し,エンティティを検索する最初のシステムであるGENREを提案する。
論文 参考訳(メタデータ) (2020-10-02T10:13:31Z) - Adapting End-to-End Speech Recognition for Readable Subtitles [15.525314212209562]
サブタイリングのようないくつかのユースケースでは、画面サイズや読み込み時間に制限があるため、動詞の文字起こしは出力の可読性を低下させる。
まず,教師なし圧縮モデルを用いて書き起こされた音声を後編集するカスケードシステムについて検討する。
実験により、モデルをスクラッチからトレーニングするために必要なデータよりもはるかに少ないデータで、TransformerベースのASRモデルを適用して、書き起こし機能と圧縮機能の両方を組み込むことが可能であることが示されている。
論文 参考訳(メタデータ) (2020-05-25T14:42:26Z) - Non-Autoregressive Machine Translation with Disentangled Context
Transformer [70.95181466892795]
最先端のニューラルネットワーク翻訳モデルは、左から右への翻訳を生成し、各ステップは以前に生成されたトークンに条件付けされる。
本研究では,異なるコンテキストのトークンを同時に生成するDisentangled Context (DisCo) 変換器を提案する。
本モデルでは,非自己回帰型機械翻訳技術と比較して性能が向上する一方,デコーディング時間の平均は大幅に減少する。
論文 参考訳(メタデータ) (2020-01-15T05:32:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。