論文の概要: Pretrained Semantic Speech Embeddings for End-to-End Spoken Language
Understanding via Cross-Modal Teacher-Student Learning
- arxiv url: http://arxiv.org/abs/2007.01836v2
- Date: Tue, 11 Aug 2020 23:32:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 04:52:33.115488
- Title: Pretrained Semantic Speech Embeddings for End-to-End Spoken Language
Understanding via Cross-Modal Teacher-Student Learning
- Title(参考訳): クロスモーダル教師学習によるエンドツーエンド音声理解のためのプレトレーニング付きセマンティック音声埋め込み
- Authors: Pavel Denisov, Ngoc Thang Vu
- Abstract要約: 本研究では,事前学習した文脈埋め込みによる音響特性の処理を可能にする新しい学習手法を提案する。
我々は、エンドツーエンドの音声言語理解システムを構築するために、事前訓練された音声認識システムのエンコーダで拡張する。
- 参考スコア(独自算出の注目度): 31.7865837105092
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Spoken language understanding is typically based on pipeline architectures
including speech recognition and natural language understanding steps. These
components are optimized independently to allow usage of available data, but
the overall system suffers from error propagation. In this paper, we propose a
novel training method that enables pretrained contextual embeddings to process
acoustic features. In particular, we extend it with an encoder of pretrained
speech recognition systems in order to construct end-to-end spoken language
understanding systems. Our proposed method is based on the teacher-student
framework across speech and text modalities that aligns the acoustic and the
semantic latent spaces. Experimental results in three benchmarks show that our
system reaches the performance comparable to the pipeline architecture without
using any training data and outperforms it after fine-tuning with ten examples
per class on two out of three benchmarks.
- Abstract(参考訳): 音声言語理解は通常、音声認識や自然言語理解ステップを含むパイプラインアーキテクチャに基づいている。
これらのコンポーネントは、利用可能なデータの使用を可能にするために独立して最適化されるが、システム全体がエラー伝搬に苦しむ。
本稿では,事前学習した文脈埋め込みによる音響特性の処理を可能にする新しい学習手法を提案する。
特に、エンドツーエンドの音声言語理解システムを構築するために、事前訓練された音声認識システムのエンコーダで拡張する。
提案手法は,音響空間と意味潜在空間を協調する音声とテキストのモダリティにまたがる教師/学生の枠組みに基づく。
3つのベンチマークで実験した結果、トレーニングデータを使用しずにパイプラインアーキテクチャに匹敵する性能に到達し、3つのベンチマークのうち2つでクラス毎に10個のサンプルを微調整した後、性能が向上することがわかった。
関連論文リスト
- Learning Disentangled Speech Representations [0.412484724941528]
SynSpeechは、非絡み合った音声表現の研究を可能にするために設計された、新しい大規模合成音声データセットである。
本稿では, 線形探索と教師付きアンタングル化指標を併用して, アンタングル化表現学習手法を評価する枠組みを提案する。
SynSpeechは、さまざまな要因のベンチマークを促進し、ジェンダーや話し方のようなより単純な機能の切り離しを期待できると同時に、話者アイデンティティのような複雑な属性を分離する際の課題を強調します。
論文 参考訳(メタデータ) (2023-11-04T04:54:17Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Analysis of Joint Speech-Text Embeddings for Semantic Matching [3.6423306784901235]
ペア音声と書き起こし入力の距離を最小化することにより,セマンティックマッチングのために訓練された共同音声テキスト埋め込み空間について検討する。
我々は,事前学習とマルチタスクの両方のシナリオを通じて,音声認識を組み込む方法を拡張した。
論文 参考訳(メタデータ) (2022-04-04T04:50:32Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z) - An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and
Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。
伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。
ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文 参考訳(メタデータ) (2020-08-21T17:24:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。