論文の概要: End-to-end Named Entity Recognition from English Speech
- arxiv url: http://arxiv.org/abs/2005.11184v1
- Date: Fri, 22 May 2020 13:39:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 08:40:22.946510
- Title: End-to-end Named Entity Recognition from English Speech
- Title(参考訳): 英語音声からエンド・ツー・エンドのエンティティ認識
- Authors: Hemant Yadav, Sreyan Ghosh, Yi Yu, Rajiv Ratn Shah
- Abstract要約: ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
- 参考スコア(独自算出の注目度): 51.22888702264816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Named entity recognition (NER) from text has been a widely studied problem
and usually extracts semantic information from text. Until now, NER from speech
is mostly studied in a two-step pipeline process that includes first applying
an automatic speech recognition (ASR) system on an audio sample and then
passing the predicted transcript to a NER tagger. In such cases, the error does
not propagate from one step to another as both the tasks are not optimized in
an end-to-end (E2E) fashion. Recent studies confirm that integrated approaches
(e.g., E2E ASR) outperform sequential ones (e.g., phoneme based ASR). In this
paper, we introduce a first publicly available NER annotated dataset for
English speech and present an E2E approach, which jointly optimizes the ASR and
NER tagger components. Experimental results show that the proposed E2E approach
outperforms the classical two-step approach. We also discuss how NER from
speech can be used to handle out of vocabulary (OOV) words in an ASR system.
- Abstract(参考訳): テキストから名前付きエンティティ認識(NER)は広く研究されている問題であり、通常テキストから意味情報を抽出する。
これまで、音声からのNERは、まず音声サンプルに自動音声認識(ASR)システムを適用し、次に予測された書き起こしをNERタグに渡す2段階のパイプラインプロセスで研究されてきた。
このような場合、両方のタスクがエンドツーエンド(E2E)方式で最適化されないため、エラーは1ステップから別のステップへ伝播しない。
最近の研究では、統合的アプローチ(例えば、E2E ASR)がシーケンシャルなアプローチ(例えば、音素ベースのASR)より優れていることが確認されている。
本稿では,英語音声のためのnerアノテーション付きデータセットを初めて公開し,asrとnerのタガーコンポーネントを共同で最適化するe2eアプローチを提案する。
実験結果から,提案手法は古典的な2段階アプローチよりも優れていることがわかった。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
関連論文リスト
- WhisperNER: Unified Open Named Entity and Speech Recognition [15.535663273628147]
本稿では,共同音声の書き起こしと実体認識を可能にする新しいモデルであるWhisperNERを紹介する。
WhisperNERはオープンタイプのNERをサポートし、推論時に多様で進化するエンティティの認識を可能にする。
実験の結果,WhisperNERはドメイン外オープン型NERと教師付き微調整の両方において,自然なベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-09-12T15:00:56Z) - One model to rule them all ? Towards End-to-End Joint Speaker
Diarization and Speech Recognition [50.055765860343286]
本稿では,共同話者ダイアリゼーションと音声認識のための新しい枠組みを提案する。
このフレームワークはSLIDARと呼ばれ、任意の長さの入力を処理でき、任意の数の話者を処理できる。
AMIコーパスからの単調録音実験により, 近接話者と遠距離話者の両方の発話シナリオにおける手法の有効性が確認された。
論文 参考訳(メタデータ) (2023-10-02T23:03:30Z) - Improving Code-Switching and Named Entity Recognition in ASR with Speech
Editing based Data Augmentation [22.38340990398735]
テキストベースの音声編集モデルを適用して,新たなデータ拡張手法を提案する。
コードスイッチングとNERタスクの実験結果から,提案手法は音声スプライシングとニューラルTSに基づくデータ拡張システムよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-06-14T15:50:13Z) - Leveraging Large Text Corpora for End-to-End Speech Summarization [58.673480990374635]
エンドツーエンド音声要約(End-to-end speech summarization, E2E SSum)は、音声から要約文を直接生成する技術である。
本稿では,E2E SSumトレーニングにおいて,大量の外部テキスト要約データを活用する2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-02T05:19:49Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2022-02-17T09:18:48Z) - Exploring Machine Speech Chain for Domain Adaptation and Few-Shot
Speaker Adaptation [11.79922306758482]
Machine Speech Chainは、エンドツーエンドの自動音声認識(ASR)とテキスト音声(TTS)を1つのサークルに統合し、共同トレーニングを行う。
ニューラルTTSモデルとE2E ASRモデルの両方のドメイン適応を行うために,音声チェーンにおけるTSS->ASRパイプラインを検討する。
論文 参考訳(メタデータ) (2021-04-08T14:52:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。