論文の概要: Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal
Selective Self-Training
- arxiv url: http://arxiv.org/abs/2305.12793v2
- Date: Sat, 3 Feb 2024 03:24:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 06:27:37.906449
- Title: Zero-Shot End-to-End Spoken Language Understanding via Cross-Modal
Selective Self-Training
- Title(参考訳): クロスモーダル選択自己学習によるゼロショットエンドツーエンド音声言語理解
- Authors: Jianfeng He, Julian Salazar, Kaisheng Yao, Haoqi Li, Jinglun Cai
- Abstract要約: 音声と音声のペアを使わずにエンドツーエンドの言語理解を学習するテクスツロショットE2E SLUを提案する。
CMSSTは3つのモード(音声、テキスト、セマンティクス)の結合空間にクラスタリングすることで不均衡に取り組み、選択ネットワークでラベルノイズを処理する。
- 参考スコア(独自算出の注目度): 17.796708448741416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) spoken language understanding (SLU) is constrained by the
cost of collecting speech-semantics pairs, especially when label domains
change. Hence, we explore \textit{zero-shot} E2E SLU, which learns E2E SLU
without speech-semantics pairs, instead using only speech-text and
text-semantics pairs. Previous work achieved zero-shot by pseudolabeling all
speech-text transcripts with a natural language understanding (NLU) model
learned on text-semantics corpora. However, this method requires the domains of
speech-text and text-semantics to match, which often mismatch due to separate
collections. Furthermore, using the entire collected speech-text corpus from
any domains leads to \textit{imbalance} and \textit{noise} issues. To address
these, we propose \textit{cross-modal selective self-training} (CMSST). CMSST
tackles imbalance by clustering in a joint space of the three modalities
(speech, text, and semantics) and handles label noise with a selection network.
We also introduce two benchmarks for zero-shot E2E SLU, covering matched and
found speech (mismatched) settings. Experiments show that CMSST improves
performance in both two settings, with significantly reduced sample sizes and
training time. Our code and data are released in
https://github.com/amazon-science/zero-shot-E2E-slu.
- Abstract(参考訳): エンド・ツー・エンド(E2E)音声言語理解(SLU)は、特にラベル領域が変化する場合、音声と音声のペアを収集するコストによって制約される。
そこで,テキスト・セマンティック・ペアを使わずにE2E SLUを学習する「textit{zero-shot} E2E SLU」を探索する。
以前の研究は、テキスト・セマンティクス・コーパスで学習した自然言語理解(nlu)モデルを用いて、すべての音声テキストの書き起こしを疑似ラベル付けすることでゼロショットを達成した。
しかし,この手法ではテキストとテキストのセマンティクスのドメインが一致する必要がある。
さらに、任意のドメインから収集された音声テキストコーパス全体を使用することで、 \textit{imbalance} と \textit{noise} の問題が発生する。
このような問題に対処するため,我々はCMSST (textit{cross-modal selective self-training}) を提案する。
CMSSTは3つのモード(音声、テキスト、セマンティクス)の結合空間にクラスタリングすることで不均衡に取り組み、選択ネットワークでラベルノイズを処理する。
また、ゼロショットE2E SLUの2つのベンチマークを導入し、一致した音声(ミスマッチした音声)をカバーした。
実験の結果、CMSSTは2つの設定でパフォーマンスが向上し、サンプルサイズとトレーニング時間が大幅に短縮された。
私たちのコードとデータはhttps://github.com/amazon-science/zero-shot-E2E-sluで公開されています。
関連論文リスト
- Augmenting text for spoken language understanding with Large Language
Models [13.240782495441275]
対応する音声を使わずに書き起こし構文解析データ(未ペアテキスト)の使い方を示す。
実験の結果、既存のドメインと新しいドメインの未ペアテキストは、絶対的エクサクトマッチ(EM)において、それぞれ2%と30%の性能を向上させることがわかった。
本稿では,既存のドメインや新しいドメインに対する未ペアテキストを生成するために,LLM(Large Language Models)を提案する。
論文 参考訳(メタデータ) (2023-09-17T22:25:34Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - token2vec: A Joint Self-Supervised Pre-training Framework Using Unpaired
Speech and Text [65.04385919645395]
token2vecは、音声の離散表現に基づく、未ペア音声とテキストのための新しい事前学習フレームワークである。
実験の結果、 token2vec は様々な音声のみの事前学習ベースラインよりも大幅に優れており、WER の相対的な減少率は17.7%である。
論文 参考訳(メタデータ) (2022-10-30T06:38:19Z) - Discrete Cross-Modal Alignment Enables Zero-Shot Speech Translation [71.35243644890537]
エンドツーエンド音声翻訳(ST)は、中間転写を生成することなく、ソース言語音声を対象言語テキストに翻訳することを目的としている。
既存のゼロショット法は、音声とテキストの2つのモダリティを共有意味空間に合わせることに失敗する。
音声とテキストの両方のモダリティに適合する離散語彙空間を共用した離散的クロスモーダルアライメント(DCMA)法を提案する。
論文 参考訳(メタデータ) (2022-10-18T03:06:47Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - Towards Semi-Supervised Semantics Understanding from Speech [15.672850567147854]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築され、限られた量のSLUコーパスに基づいて微調整される。
論文 参考訳(メタデータ) (2020-11-11T01:48:09Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。