論文の概要: AISHELL-NER: Named Entity Recognition from Chinese Speech
- arxiv url: http://arxiv.org/abs/2202.08533v1
- Date: Thu, 17 Feb 2022 09:18:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-18 21:33:50.727515
- Title: AISHELL-NER: Named Entity Recognition from Chinese Speech
- Title(参考訳): AISHELL-NER:中国語音声からのエンティティ認識
- Authors: Boli Chen, Guangwei Xu, Xiaobin Wang, Pengjun Xie, Meishan Zhang, Fei
Huang
- Abstract要約: 中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
- 参考スコア(独自算出の注目度): 54.434118596263126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Named Entity Recognition (NER) from speech is among Spoken Language
Understanding (SLU) tasks, aiming to extract semantic information from the
speech signal. NER from speech is usually made through a two-step pipeline that
consists of (1) processing the audio using an Automatic Speech Recognition
(ASR) system and (2) applying an NER tagger to the ASR outputs. Recent works
have shown the capability of the End-to-End (E2E) approach for NER from English
and French speech, which is essentially entity-aware ASR. However, due to the
many homophones and polyphones that exist in Chinese, NER from Chinese speech
is effectively a more challenging task. In this paper, we introduce a new
dataset AISEHLL-NER for NER from Chinese speech. Extensive experiments are
conducted to explore the performance of several state-of-the-art methods. The
results demonstrate that the performance could be improved by combining
entity-aware ASR and pretrained NER tagger, which can be easily applied to the
modern SLU pipeline. The dataset is publicly available at
github.com/Alibaba-NLP/AISHELL-NER.
- Abstract(参考訳): 音声からのエンティティ認識(NER)は音声信号から意味情報を抽出することを目的とした音声言語理解(SLU)タスクの一つである。
音声からのNERは通常、(1)音声を自動音声認識(ASR)システムで処理し、(2)NERタグをASR出力に適用する2段階のパイプラインによって行われる。
最近の研究は、英語とフランス語の音声からNERに対するEnd-to-End(E2E)アプローチの能力を示している。
しかし、中国語には多くのホモフォンやポリフォンがあるため、中国語のNERは事実上難しい課題である。
本稿では,中国語音声からのNERのためのデータセットAISEHLL-NERを提案する。
いくつかの最先端手法の性能を調べるために,広範囲な実験を行った。
その結果、エンティティ認識型ASRと事前学習型NERタグを併用することで、現在のSLUパイプラインに容易に適用できることが示されている。
データセットはgithub.com/Alibaba-NLP/AISHELL-NERで公開されている。
関連論文リスト
- WhisperNER: Unified Open Named Entity and Speech Recognition [15.535663273628147]
本稿では,共同音声の書き起こしと実体認識を可能にする新しいモデルであるWhisperNERを紹介する。
WhisperNERはオープンタイプのNERをサポートし、推論時に多様で進化するエンティティの認識を可能にする。
実験の結果,WhisperNERはドメイン外オープン型NERと教師付き微調整の両方において,自然なベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-09-12T15:00:56Z) - Using Large Language Model for End-to-End Chinese ASR and NER [35.876792804001646]
本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-21T03:15:05Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - ESPnet-SE++: Speech Enhancement for Robust Speech Recognition,
Translation, and Understanding [86.47555696652618]
本稿では,音声分離と拡張をESPnetツールキットに統合する最近の進歩について述べる。
新しいインタフェースは、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを併用するように設計されている。
その結果,SEフロントエンドとバックエンドタスクの統合は,ASR以外のタスクにおいても有望な研究方向であることが示唆された。
論文 参考訳(メタデータ) (2022-07-19T18:55:29Z) - End-to-End Spoken Language Understanding: Performance analyses of a
voice command task in a low resource setting [0.3867363075280543]
本稿では,E2Eモデルを用いて音声言語理解タスクを実行するための信号特徴と他の言語特性を同定する。
この研究は、英語以外の音声コマンドを処理しなければならないスマートホームのアプリケーションドメインで実施されている。
論文 参考訳(メタデータ) (2022-07-17T13:51:56Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding? [14.575551366682872]
学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
論文 参考訳(メタデータ) (2021-11-29T15:13:36Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z) - ESPnet-ST: All-in-One Speech Translation Toolkit [57.76342114226599]
ESPnet-STは、エンドツーエンドの音声処理ツールキットであるESPnet内の新しいプロジェクトである。
音声認識、機械翻訳、音声翻訳のための音声合成機能を実装する。
データ前処理、特徴抽出、トレーニング、デコードパイプラインを含むオールインワンのレシピを提供します。
論文 参考訳(メタデータ) (2020-04-21T18:38:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。