論文の概要: End2End Acoustic to Semantic Transduction
- arxiv url: http://arxiv.org/abs/2102.01013v1
- Date: Mon, 1 Feb 2021 17:42:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-02 16:13:18.244500
- Title: End2End Acoustic to Semantic Transduction
- Title(参考訳): End2End音響とセマンティックトランスダクション
- Authors: Valentin Pelloin, Nathalie Camelin, Antoine Laurent, Renato De Mori,
Antoine Caubri\`ere, Yannick Est\`eve, Sylvain Meignier
- Abstract要約: そこで本研究では,エンドツーエンドの列から列への音声言語理解モデルを提案する。
意味的内容を仮説化するために、コンテキスト音響特徴を確実に選択する。
- 参考スコア(独自算出の注目度): 10.737815919429867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel end-to-end sequence-to-sequence spoken
language understanding model using an attention mechanism. It reliably selects
contextual acoustic features in order to hypothesize semantic contents. An
initial architecture capable of extracting all pronounced words and concepts
from acoustic spans is designed and tested. With a shallow fusion language
model, this system reaches a 13.6 concept error rate (CER) and an 18.5 concept
value error rate (CVER) on the French MEDIA corpus, achieving an absolute 2.8
points reduction compared to the state-of-the-art. Then, an original model is
proposed for hypothesizing concepts and their values. This transduction reaches
a 15.4 CER and a 21.6 CVER without any new type of context.
- Abstract(参考訳): 本稿では,注意機構を用いた新しいエンドツーエンドシーケンス・ツー・シーケンス音声言語理解モデルを提案する。
意味的内容を仮説化するために、コンテキスト音響特徴を確実に選択する。
アコースティックスパンからすべての発音された単語や概念を抽出できる初期アーキテクチャを設計、試験する。
浅い融合言語モデルでは、このシステムはフランスのMEDIAコーパスにおける13.6のコンセプトエラーレート(CER)と18.5のコンセプト値エラーレート(CVER)に達し、最先端技術と比較して絶対2.8ポイントの削減を実現している。
そこで,概念とその価値を仮説化するモデルを提案する。
この変換は、新しいタイプのコンテキストなしで15.4 CERと21.6 CVERに達する。
関連論文リスト
- Listenable Maps for Zero-Shot Audio Classifiers [12.446324804274628]
我々はZero-Shotコンテキストで初めてLMAC-Z(Listenable Maps for Audio)を紹介した。
提案手法は,異なるテキストプロンプトとよく相関する有意義な説明を生成する。
論文 参考訳(メタデータ) (2024-05-27T19:25:42Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - TOLD: A Novel Two-Stage Overlap-Aware Framework for Speaker Diarization [54.41494515178297]
話者ダイアリゼーションを単一ラベル分類問題として再検討する。
話者の重なりと依存性を明示的にモデル化できる重なり認識型EEND(EEND-OLA)モデルを提案する。
オリジナルのEENDと比較すると、提案されたEEND-OLAはダイアリゼーションエラー率において14.39%の相対的な改善を実現している。
論文 参考訳(メタデータ) (2023-03-08T05:05:26Z) - Progressive Tree-Structured Prototype Network for End-to-End Image
Captioning [74.8547752611337]
本稿では,新しいプログレッシブツリー構造型プロトタイプネットワーク(PTSN)を提案する。
PTSNは、階層的テキスト意味論をモデル化することによって、適切な意味論で予測語の範囲を狭める最初の試みである。
提案手法は,144.2%(シングルモデル),146.5%(4モデルのアンサンブル),141.4%(c5),143.9%(c40)のCIDErを公式オンラインテストサーバ上でスコアする。
論文 参考訳(メタデータ) (2022-11-17T11:04:00Z) - A Conformer Based Acoustic Model for Robust Automatic Speech Recognition [63.242128956046024]
提案手法は,二方向長短期記憶(BLSTM)モデルと発話ワイドドロップアウトと反復話者適応を用いて,最先端の音声認識システムを構築した。
コンフォーマーエンコーダは、音響モデリングに畳み込み強化されたアテンションメカニズムを使用する。
提案システムはCHiME-4コーパスの単調なASRタスクに基づいて評価される。
論文 参考訳(メタデータ) (2022-03-01T20:17:31Z) - Speech Summarization using Restricted Self-Attention [79.89680891246827]
音声要約に最適化された単一モデルを提案する。
提案モデルでは,ハウ-2コーパスの音声を直接要約する手法が提案されている。
論文 参考訳(メタデータ) (2021-10-12T18:21:23Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。