論文の概要: End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders
- arxiv url: http://arxiv.org/abs/2305.02937v1
- Date: Thu, 4 May 2023 15:36:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 14:57:01.113393
- Title: End-to-end spoken language understanding using joint CTC loss and
self-supervised, pretrained acoustic encoders
- Title(参考訳): 共同CTC損失と自己教師付き事前学習音響エンコーダを用いたエンドツーエンド音声言語理解
- Authors: Jixuan Wang, Martin Radfar, Kai Wei, Clement Chung
- Abstract要約: 本研究では,コネクショニストの時間分類を微調整した自己教師型音響エンコーダを用いて,テキストの埋め込みを抽出する。
本モデルでは,DSTC2データセット上でのSOTA(State-of-the-art)対話行動分類モデルに対して,4%の絶対的な改善を実現している。
- 参考スコア(独自算出の注目度): 13.722028186368737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It is challenging to extract semantic meanings directly from audio signals in
spoken language understanding (SLU), due to the lack of textual information.
Popular end-to-end (E2E) SLU models utilize sequence-to-sequence automatic
speech recognition (ASR) models to extract textual embeddings as input to infer
semantics, which, however, require computationally expensive auto-regressive
decoding. In this work, we leverage self-supervised acoustic encoders
fine-tuned with Connectionist Temporal Classification (CTC) to extract textual
embeddings and use joint CTC and SLU losses for utterance-level SLU tasks.
Experiments show that our model achieves 4% absolute improvement over the the
state-of-the-art (SOTA) dialogue act classification model on the DSTC2 dataset
and 1.3% absolute improvement over the SOTA SLU model on the SLURP dataset.
- Abstract(参考訳): 音声言語理解(SLU)における音声信号から直接意味を抽出することは,テキスト情報の欠如により困難である。
一般的なエンドツーエンド(E2E)SLUモデルは、シーケンス・ツー・シーケンスの自動音声認識(ASR)モデルを使用して、セマンティクスを推論するための入力としてテキスト埋め込みを抽出する。
本研究では,コネクショニスト時間分類(CTC)で微調整された自己教師型音響エンコーダを活用し,テキスト埋め込みを抽出し,発話レベルSLUタスクに共同CTCとSLU損失を用いる。
実験により,dstc2データセット上の最先端対話行動分類モデルよりも4%,slurpデータセットのsoma sluモデルに対して1.3%の絶対改善が得られた。
関連論文リスト
- Token-level Sequence Labeling for Spoken Language Understanding using
Compositional End-to-End Models [94.30953696090758]
音声合成言語理解システムを構築した。
ASRのために訓練された中間デコーダを頼りにすることで、私たちのエンドツーエンドシステムは、入力モダリティを音声からトークンレベルの表現に変換する。
我々のモデルは、名前付きエンティティ認識のラベル付けタスクにおいて、カスケードモデルと直接エンド・ツー・エンドモデルの両方より優れている。
論文 参考訳(メタデータ) (2022-10-27T19:33:18Z) - Two-Pass Low Latency End-to-End Spoken Language Understanding [36.81762807197944]
我々は,E2E-SLUフレームワーク内にラベル付きテキストデータに基づいて事前学習した言語モデルを組み込んで,強力な意味表現を構築した。
本研究では,第1パスの音声数秒の音響情報を用いて低遅延予測を行う2パスSLUシステムを開発した。
私たちのコードとモデルは、ESPnet-SLUツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-07-14T05:50:16Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - RNN Transducer Models For Spoken Language Understanding [49.07149742835825]
本稿では,事前学習した音声認識システムからRNN-T SLUモデルを開発する方法について述べる。
実際の音声データが入手できない環境では、様々なSLUモデルに適応するために人工合成音声を使用する。
論文 参考訳(メタデータ) (2021-04-08T15:35:22Z) - Do as I mean, not as I say: Sequence Loss Training for Spoken Language
Understanding [22.652754839140744]
音声言語理解(SLU)システムは、音声から転写だけでなく、意図や名前のエンティティの意味を抽出します。
セマンティックエラーのプロキシとしてSLUメトリックに基づく非微分シーケンス損失を提案し、REINFORCEトリックを使用してASRとSLUモデルをこの損失でトレーニングします。
我々は、カスタムシーケンスロストレーニングがオープンSLUデータセットの最先端であり、ASRとNLUのパフォーマンスメトリックの両方で6%の相対的な改善をもたらすことを示しています。
論文 参考訳(メタデータ) (2021-02-12T20:09:08Z) - Speech-language Pre-training for End-to-end Spoken Language
Understanding [18.548949994603213]
本稿では,e2e asrエンコーダ (speech) と事前学習した言語モデルエンコーダ (language) をトランスフォーマデコーダに統合する。
2つの公開コーパスによる実験結果から,E2E SLUへのアプローチは従来のカスケード法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-02-11T21:55:48Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。