論文の概要: WhisperNER: Unified Open Named Entity and Speech Recognition
- arxiv url: http://arxiv.org/abs/2409.08107v1
- Date: Thu, 12 Sep 2024 15:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 16:07:58.647386
- Title: WhisperNER: Unified Open Named Entity and Speech Recognition
- Title(参考訳): WhisperNER: 統一されたオープンネームエンティティと音声認識
- Authors: Gil Ayache, Menachem Pirchi, Aviv Navon, Aviv Shamsian, Gill Hetz, Joseph Keshet,
- Abstract要約: 本稿では,共同音声の書き起こしと実体認識を可能にする新しいモデルであるWhisperNERを紹介する。
WhisperNERはオープンタイプのNERをサポートし、推論時に多様で進化するエンティティの認識を可能にする。
実験の結果,WhisperNERはドメイン外オープン型NERと教師付き微調整の両方において,自然なベースラインよりも優れていた。
- 参考スコア(独自算出の注目度): 15.535663273628147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating named entity recognition (NER) with automatic speech recognition (ASR) can significantly enhance transcription accuracy and informativeness. In this paper, we introduce WhisperNER, a novel model that allows joint speech transcription and entity recognition. WhisperNER supports open-type NER, enabling recognition of diverse and evolving entities at inference. Building on recent advancements in open NER research, we augment a large synthetic dataset with synthetic speech samples. This allows us to train WhisperNER on a large number of examples with diverse NER tags. During training, the model is prompted with NER labels and optimized to output the transcribed utterance along with the corresponding tagged entities. To evaluate WhisperNER, we generate synthetic speech for commonly used NER benchmarks and annotate existing ASR datasets with open NER tags. Our experiments demonstrate that WhisperNER outperforms natural baselines on both out-of-domain open type NER and supervised finetuning.
- Abstract(参考訳): 名前付きエンティティ認識(NER)と自動音声認識(ASR)を統合することで、転写精度と情報性を大幅に向上させることができる。
本稿では,共同音声の書き起こしと実体認識が可能な新しいモデルであるWhisperNERを紹介する。
WhisperNERはオープンタイプのNERをサポートし、推論時に多様で進化するエンティティの認識を可能にする。
オープンNER研究の最近の進歩を基盤として,合成音声サンプルを用いた大規模合成データセットを構築した。
これによって、さまざまなNERタグを持つ多数の例でWhisperNERをトレーニングすることができます。
トレーニング中、モデルはNERラベルでトリガーされ、対応するタグ付けされたエンティティとともに書き起こされた発話を出力するように最適化される。
WhisperNERを評価するために、よく使われるNERベンチマークのための合成音声を生成し、オープンなNERタグで既存のASRデータセットに注釈を付ける。
実験の結果,WhisperNERはドメイン外オープン型NERと教師付き微調整の両方において,自然なベースラインよりも優れていた。
関連論文リスト
- Learning Robust Named Entity Recognizers From Noisy Data With Retrieval Augmentation [67.89838237013078]
名前付きエンティティ認識(NER)モデルは、しばしばノイズの多い入力に悩まされる。
ノイズの多いテキストとそのNERラベルのみを利用できる、より現実的な設定を提案する。
我々は、推論中にテキストを取得することなく、堅牢なNERを改善するマルチビュートレーニングフレームワークを採用している。
論文 参考訳(メタデータ) (2024-07-26T07:30:41Z) - In-Context Learning for Few-Shot Nested Named Entity Recognition [53.55310639969833]
数発のネストネストNERの設定に有効で革新的なICLフレームワークを導入する。
我々は、新しい実演選択機構であるEnDe retrieverを考案し、ICLプロンプトを改善する。
EnDe検索では,意味的類似性,境界類似性,ラベル類似性という3種類の表現学習を行うために,コントラスト学習を用いる。
論文 参考訳(メタデータ) (2024-02-02T06:57:53Z) - Using Large Language Model for End-to-End Chinese ASR and NER [35.876792804001646]
本稿では,クロスアテンションによる音声特徴を組み込んだエンコーダ・デコーダアーキテクチャを提案する。
本稿では,中国語の自動音声認識(ASR)と名前認識(NER)の2つの手法を比較した。
実験の結果,エンコーダ-デコーダアーキテクチャは短いコンテキストでデコーダのみのアーキテクチャよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-01-21T03:15:05Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Optimizing Bi-Encoder for Named Entity Recognition via Contrastive
Learning [80.36076044023581]
名前付きエンティティ認識(NER)のための効率的なバイエンコーダフレームワークを提案する。
我々はNERを、エンティティ参照のベクトル表現とその型との類似性を最大化する計量学習問題とみなす。
NERのこのバイエンコーダの定式化における大きな課題は、エンティティの言及から非エンゲージスを分離することにある。
論文 参考訳(メタデータ) (2022-08-30T23:19:04Z) - NERDA-Con: Extending NER models for Continual Learning -- Integrating
Distinct Tasks and Updating Distribution Shifts [0.0]
我々は,Large Language Models (LLMs) ベースを用いた NER 学習パイプラインである NERDA-Con を提案する。
私たちの仕事が継続的学習とNERのパイプラインで活用できると信じているので、コードをオープンソースにして、NERDA-Conという同じ名前の微調整ライブラリを提供しています。
論文 参考訳(メタデータ) (2022-06-28T03:22:55Z) - AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2022-02-17T09:18:48Z) - DEXTER: Deep Encoding of External Knowledge for Named Entity Recognition
in Virtual Assistants [10.500933545429202]
NERが重要なコンポーネントであるインテリジェント音声アシスタントでは、ユーザや音声認識エラーのため、NERへの入力がうるさい場合がある。
これらの問題に対処するためのNERシステムについて述べる。
本手法は, セマンティック解析などの関連タスクを改善し, エラー率を最大5%向上することを示す。
論文 参考訳(メタデータ) (2021-08-15T00:14:47Z) - End-to-end Named Entity Recognition from English Speech [51.22888702264816]
ASRとNERのタグ付けコンポーネントを協調的に最適化するE2Eアプローチを提案する。
また,音声からのNERを用いて語彙(OOV)をASRシステムで処理する方法についても論じる。
論文 参考訳(メタデータ) (2020-05-22T13:39:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。