論文の概要: End2End Acoustic to Semantic Transduction
- arxiv url: http://arxiv.org/abs/2102.01013v1
- Date: Mon, 1 Feb 2021 17:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:13:18.244500
- Title: End2End Acoustic to Semantic Transduction
- Title(参考訳): End2End音響とセマンティックトランスダクション
- Authors: Valentin Pelloin, Nathalie Camelin, Antoine Laurent, Renato De Mori,
Antoine Caubri\`ere, Yannick Est\`eve, Sylvain Meignier
- Abstract要約: そこで本研究では,エンドツーエンドの列から列への音声言語理解モデルを提案する。
意味的内容を仮説化するために、コンテキスト音響特徴を確実に選択する。
- 参考スコア(独自算出の注目度): 10.737815919429867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel end-to-end sequence-to-sequence spoken
language understanding model using an attention mechanism. It reliably selects
contextual acoustic features in order to hypothesize semantic contents. An
initial architecture capable of extracting all pronounced words and concepts
from acoustic spans is designed and tested. With a shallow fusion language
model, this system reaches a 13.6 concept error rate (CER) and an 18.5 concept
value error rate (CVER) on the French MEDIA corpus, achieving an absolute 2.8
points reduction compared to the state-of-the-art. Then, an original model is
proposed for hypothesizing concepts and their values. This transduction reaches
a 15.4 CER and a 21.6 CVER without any new type of context.
- Abstract(参考訳): 本稿では,注意機構を用いた新しいエンドツーエンドシーケンス・ツー・シーケンス音声言語理解モデルを提案する。
意味的内容を仮説化するために、コンテキスト音響特徴を確実に選択する。
アコースティックスパンからすべての発音された単語や概念を抽出できる初期アーキテクチャを設計、試験する。
浅い融合言語モデルでは、このシステムはフランスのMEDIAコーパスにおける13.6のコンセプトエラーレート(CER)と18.5のコンセプト値エラーレート(CVER)に達し、最先端技術と比較して絶対2.8ポイントの削減を実現している。
そこで,概念とその価値を仮説化するモデルを提案する。
この変換は、新しいタイプのコンテキストなしで15.4 CERと21.6 CVERに達する。
関連論文リスト
- TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [50.656726859396926]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Efficiently Fusing Pretrained Acoustic and Linguistic Encoders for
Low-resource Speech Recognition [9.732767611907068]
本研究では,前訓練音響エンコーダ(wav2vec2.0)と前訓練言語エンコーダ(bert)をエンドツーエンドasrモデルに融合する。
本モデルは他のエンドツーエンドモデルに比べてcallhomeコーパスの認識性能が(15時間)向上する。
論文 参考訳(メタデータ) (2021-01-17T16:12:44Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。