論文の概要: End-to-end model for named entity recognition from speech without paired
training data
- arxiv url: http://arxiv.org/abs/2204.00803v1
- Date: Sat, 2 Apr 2022 08:14:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 15:59:35.386245
- Title: End-to-end model for named entity recognition from speech without paired
training data
- Title(参考訳): ペアトレーニングデータのない音声からの固有エンティティ認識のためのエンドツーエンドモデル
- Authors: Salima Mdhaffar, Jarod Duret, Titouan Parcollet, Yannick Est\`eve
- Abstract要約: 本稿では,意味情報を抽出するエンド・ツー・エンドのニューラルモデルを構築するアプローチを提案する。
我々のアプローチは、テキストからベクトル表現のシーケンスを生成するために訓練された外部モデルを使用することに基づいている。
quEROコーパスを用いた名前付きエンティティ認識実験は,このアプローチが有望であることを示す。
- 参考スコア(独自算出の注目度): 12.66131972249388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works showed that end-to-end neural approaches tend to become very
popular for spoken language understanding (SLU). Through the term end-to-end,
one considers the use of a single model optimized to extract semantic
information directly from the speech signal. A major issue for such models is
the lack of paired audio and textual data with semantic annotation. In this
paper, we propose an approach to build an end-to-end neural model to extract
semantic information in a scenario in which zero paired audio data is
available. Our approach is based on the use of an external model trained to
generate a sequence of vectorial representations from text. These
representations mimic the hidden representations that could be generated inside
an end-to-end automatic speech recognition (ASR) model by processing a speech
signal. An SLU neural module is then trained using these representations as
input and the annotated text as output. Last, the SLU module replaces the top
layers of the ASR model to achieve the construction of the end-to-end model.
Our experiments on named entity recognition, carried out on the QUAERO corpus,
show that this approach is very promising, getting better results than a
comparable cascade approach or than the use of synthetic voices.
- Abstract(参考訳): 近年の研究では、音声言語理解(SLU)において、エンドツーエンドのニューラルアプローチが非常に人気がある傾向が示されている。
エンドツーエンドという用語を通じて、音声信号から直接意味情報を抽出するために最適化された単一のモデルを使用することを考える。
このようなモデルの大きな問題は、セマンティックアノテーションを備えたペア音声とテキストデータの欠如である。
本稿では,ゼロペアの音声データが得られるシナリオにおいて意味情報を抽出するために,エンドツーエンドのニューラルモデルを構築する手法を提案する。
本手法は,テキストからベクトル表現列を生成するように訓練された外部モデルを用いたものである。
これらの表現は、音声信号を処理することによって、エンドツーエンドの自動音声認識(ASR)モデル内で生成できる隠れ表現を模倣する。
SLUニューラルネットワークモジュールは、これらの表現を入力として、アノテーション付きテキストを出力としてトレーニングされる。
最後に、SLUモジュールはASRモデルの上位層を置き換えることで、エンドツーエンドモデルの構築を実現する。
quEROコーパスを用いた名前付きエンティティ認識実験により,このアプローチは非常に有望であり,同等のカスケードアプローチや合成音声よりも優れた結果が得られることが示された。
関連論文リスト
- BrewCLIP: A Bifurcated Representation Learning Framework for Audio-Visual Retrieval [3.347768376390811]
パイプラインベースモデルで見落としている非テキスト情報を利用して、音声画像のマッチング性能を向上させることができるかを検討する。
提案手法は, 事前学習の強いモデル, プロンプト機構, 分岐設計を活用することで, 従来の最先端技術よりも大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-08-19T19:56:10Z) - Generative Context-aware Fine-tuning of Self-supervised Speech Models [54.389711404209415]
生成型大規模言語モデル(LLM)生成コンテキスト情報の利用について検討する。
自己教師型音声モデルの微調整中に生成した情報を抽出する手法を提案する。
本稿では,SLUE と Libri-light のベンチマークを用いて,自動音声認識,名前付きエンティティ認識,感情分析を行う手法を提案する。
論文 参考訳(メタデータ) (2023-12-15T15:46:02Z) - TokenSplit: Using Discrete Speech Representations for Direct, Refined,
and Transcript-Conditioned Speech Separation and Recognition [51.565319173790314]
TokenSplit は Transformer アーキテクチャを使用するシーケンス・ツー・シーケンス・エンコーダ・デコーダモデルである。
また,本モデルでは,書き起こし条件付けの有無にかかわらず,分離の点で優れた性能を発揮することを示す。
また、自動音声認識(ASR)の性能を測定し、音声合成の音声サンプルを提供し、我々のモデルの有用性を実証する。
論文 参考訳(メタデータ) (2023-08-21T01:52:01Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - End-to-End Neural Transformer Based Spoken Language Understanding [14.736425160859284]
音声言語理解(SLU)とは、音声信号から意味情報を推測する過程のこと。
本稿では,音声信号に埋め込まれた可変長領域,意図,スロットを予測可能な,エンドツーエンドのニューラルトランスフォーマーに基づくSLUモデルを提案する。
我々のエンドツーエンド変換器SLUは、Fluent Speech Commandsデータセットのドメイン、インテント、スロットを、それぞれ98.1 %、99.6 %、99.6 %と精度で予測する。
論文 参考訳(メタデータ) (2020-08-12T22:58:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。