Fugu-MT 論文翻訳(概要): Do We Still Need Automatic Speech Recognition for Spoken Language Understanding?

論文の概要: Do We Still Need Automatic Speech Recognition for Spoken Language Understanding?

arxiv url: http://arxiv.org/abs/2111.14842v1
Date: Mon, 29 Nov 2021 15:13:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-01 14:20:58.827893
Title: Do We Still Need Automatic Speech Recognition for Spoken Language Understanding?
Title（参考訳）: 音声言語理解のための音声認識はまだ必要か?
Authors: Lasse Borgholt, Jakob Drachmann Havtorn, Mostafa Abdou, Joakim Edin, Lars Maal{\o}e, Anders S{\o}gaard, Christian Igel
Abstract要約: 学習音声の特徴は,3つの分類課題において,ASRの書き起こしよりも優れていることを示す。我々は、wav2vec 2.0表現を語彙外単語に固有の頑健さを、パフォーマンス向上の鍵として強調する。
参考スコア（独自算出の注目度）: 14.575551366682872
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Spoken language understanding (SLU) tasks are usually solved by first transcribing an utterance with automatic speech recognition (ASR) and then feeding the output to a text-based model. Recent advances in self-supervised representation learning for speech data have focused on improving the ASR component. We investigate whether representation learning for speech has matured enough to replace ASR in SLU. We compare learned speech features from wav2vec 2.0, state-of-the-art ASR transcripts, and the ground truth text as input for a novel speech-based named entity recognition task, a cardiac arrest detection task on real-world emergency calls and two existing SLU benchmarks. We show that learned speech features are superior to ASR transcripts on three classification tasks. For machine translation, ASR transcripts are still the better choice. We highlight the intrinsic robustness of wav2vec 2.0 representations to out-of-vocabulary words as key to better performance.
Abstract（参考訳）: 音声言語理解(slu)タスクは通常、まず発話を自動音声認識(asr)で書き起こし、それからテキストベースのモデルに出力することで解決される。音声データに対する自己教師付き表現学習の最近の進歩は、ASRコンポーネントの改善に焦点を当てている。音声の表現学習がSLUのASRに取って代わるほど成熟したかどうかを検討する。我々は,wav2vec 2.0の学習音声特徴,最先端のASR書き起こし,および音声に基づく新しいエンティティ認識タスク,現実世界の緊急電話における心停止検出タスク,および既存の2つのSLUベンチマークの入力として真実テキストを比較した。学習音声の特徴は3つの分類課題においてasr書き起こしよりも優れていることを示す。機械翻訳では、asrの書き起こしが良い選択である。我々は,wav2vec 2.0表現の語彙外表現に対する本質的ロバスト性を,パフォーマンス向上の鍵として強調する。

関連論文リスト

Internalizing ASR with Implicit Chain of Thought for Efficient Speech-to-Speech Conversational LLM [3.6950912517562435]
本稿では,ASR の思考を音声 LLM に暗黙的に内部化する手法を提案する。このアプローチはレイテンシを低減し、モデルの音声に対するネイティブ理解を改善し、より効率的で自然なリアルタイムオーディオインタラクションを実現する。
論文参考訳（メタデータ） (2024-09-25T20:59:12Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Learning Speech Representation From Contrastive Token-Acoustic Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文参考訳（メタデータ） (2023-09-01T12:35:43Z)
Miipher: A Robust Speech Restoration Model Integrating Self-Supervised Speech and Text Representations [51.89856133895233]
音声復元(SR)は、劣化した音声信号を高品質なものに変換するタスクである。本研究では、Miipherと呼ばれるロバストなSRモデルを提案し、新しいSRアプリケーションにMiipherを適用する。 SRモデルを様々な劣化に対して堅牢にするために、入力特徴としてw2v-BERTから抽出した音声表現と、PnG-BERTを介して書き起こしから抽出したテキスト表現を言語条件付けとして使用する。
論文参考訳（メタデータ） (2023-03-03T01:57:16Z)
Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文参考訳（メタデータ） (2022-11-06T04:50:37Z)
A Textless Metric for Speech-to-Speech Comparison [20.658229254191266]
テキストの書き起こしに頼らずに音声の発話を比較するための,新しい,シンプルな手法を提案する。我々は,HuBERTのような最先端の音声2ユニットエンコーダを用いて,音声の発話を離散音響単位に変換する。
論文参考訳（メタデータ） (2022-10-21T09:28:54Z)
WaBERT: A Low-resource End-to-end Model for Spoken Language Understanding and Speech-to-BERT Alignment [2.7505260301752763]
本稿では,SLUタスクのための音声モデルと言語モデルを組み合わせた,新しいエンドツーエンドモデルを提案する。 WaBERTは事前訓練された音声と言語モデルに基づいているため、スクラッチからのトレーニングは必要ない。
論文参考訳（メタデータ） (2022-04-22T02:14:40Z)
AISHELL-NER: Named Entity Recognition from Chinese Speech [54.434118596263126]
中国語音声からのNERのための新しいデータセットAISEHLL-NERを提案する。その結果,ASRと事前学習したNERタグを併用することにより,性能が向上できることが示唆された。
論文参考訳（メタデータ） (2022-02-17T09:18:48Z)
Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文参考訳（メタデータ） (2021-10-11T00:08:48Z)
On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。 IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文参考訳（メタデータ） (2021-04-20T17:10:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。