論文の概要: Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding?
- arxiv url: http://arxiv.org/abs/2111.14842v1
- Date: Mon, 29 Nov 2021 15:13:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 14:20:58.827893
- Title: Do We Still Need Automatic Speech Recognition for Spoken Language
Understanding?
- Title(参考訳): 音声言語理解のための音声認識はまだ必要か?
- Authors: Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin,
Lars Maal{\o}e, Anders S{\o}gaard, Christian Igel
- Abstract要約: 学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。
我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
- 参考スコア(独自算出の注目度): 14.575551366682872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language understanding (SLU) tasks are usually solved by first
transcribing an utterance with automatic speech recognition (ASR) and then
feeding the output to a text-based model. Recent advances in self-supervised
representation learning for speech data have focused on improving the ASR
component. We investigate whether representation learning for speech has
matured enough to replace ASR in SLU. We compare learned speech features from
wav2vec 2.0, state-of-the-art ASR transcripts, and the ground truth text as
input for a novel speech-based named entity recognition task, a cardiac arrest
detection task on real-world emergency calls and two existing SLU benchmarks.
We show that learned speech features are superior to ASR transcripts on three
classification tasks. For machine translation, ASR transcripts are still the
better choice. We highlight the intrinsic robustness of wav2vec 2.0
representations to out-of-vocabulary words as key to better performance.
- Abstract(参考訳): 音声言語理解(slu)タスクは通常、まず発話を自動音声認識(asr)で書き起こし、それからテキストベースのモデルに出力することで解決される。
音声データに対する自己教師付き表現学習の最近の進歩は、ASRコンポーネントの改善に焦点を当てている。
音声の表現学習がSLUのASRに取って代わるほど成熟したかどうかを検討する。
我々は,wav2vec 2.0の学習音声特徴,最先端のASR書き起こし,および音声に基づく新しいエンティティ認識タスク,現実世界の緊急電話における心停止検出タスク,および既存の2つのSLUベンチマークの入力として真実テキストを比較した。
学習音声の特徴は3つの分類課題においてasr書き起こしよりも優れていることを示す。
機械翻訳では、asrの書き起こしが良い選択である。
我々は,wav2vec 2.0表現の語彙外表現に対する本質的ロバスト性を,パフォーマンス向上の鍵として強調する。
関連論文リスト
- Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。
このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文 参考訳(メタデータ) (2024-09-25T20:59:12Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Miipher: A Robust Speech Restoration Model Integrating Self-Supervised
Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。
本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。
SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文 参考訳(メタデータ) (2023-03-03T01:57:16Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。
我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文 参考訳(メタデータ) (2022-10-21T09:28:54Z) - WaBERT: A Low-resource End-to-end Model for Spoken Language
Understanding and Speech-to-BERT Alignment [2.7505260301752763]
本稿では,SLUタスクのための音声モデルと言語モデルを組み合わせた,新しいエンドツーエンドモデルを提案する。
WaBERTは事前訓練された音声と言語モデルに基づいているため、スクラッチからのトレーニングは必要ない。
論文 参考訳(メタデータ) (2022-04-22T02:14:40Z) - AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。
その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文 参考訳(メタデータ) (2022-02-17T09:18:48Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。