論文の概要: Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target
- arxiv url: http://arxiv.org/abs/2305.18096v1
- Date: Mon, 29 May 2023 14:00:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 14:50:05.547087
- Title: Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target
- Title(参考訳): 離散単位を中間目的とするテキストレス音声言語理解の改善
- Authors: Guan-Wei Wu, Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee
- Abstract要約: Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
- 参考スコア(独自算出の注目度): 58.59044226658916
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spoken Language Understanding (SLU) is a task that aims to extract semantic
information from spoken utterances. Previous research has made progress in
end-to-end SLU by using paired speech-text data, such as pre-trained Automatic
Speech Recognition (ASR) models or paired text as intermediate targets.
However, acquiring paired transcripts is expensive and impractical for
unwritten languages. On the other hand, Textless SLU extracts semantic
information from speech without utilizing paired transcripts. However, the
absence of intermediate targets and training guidance for textless SLU often
results in suboptimal performance. In this work, inspired by the
content-disentangled discrete units from self-supervised speech models, we
proposed to use discrete units as intermediate guidance to improve textless SLU
performance. Our method surpasses the baseline method on five SLU benchmark
corpora. Additionally, we find that unit guidance facilitates few-shot learning
and enhances the model's ability to handle noise.
- Abstract(参考訳): Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
従来の研究は、事前訓練された自動音声認識(ASR)モデルやペアテキストを中間目標とするペア音声テキストデータを用いて、エンドツーエンドのSLUを進展させた。
しかし、ペアの書き起こしは高価であり、非書き起こし言語には非現実的である。
一方、Textless SLUは、ペアの書き起こしを使わずに、音声から意味情報を抽出する。
しかし、中間目標の欠如とテキストレスSLUの訓練指導は、しばしば準最適性能をもたらす。
本研究では, テキストレスSLUの性能向上のための中間ガイダンスとして, 自己教師型音声モデルからのコンテンツ非依存の離散単位を用いた。
本手法は,5つのSLUベンチマークコーパスのベースライン法を超えている。
さらに,単位指導は数発の学習を促進し,ノイズに対処するモデルの能力を高める。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Meta Auxiliary Learning for Low-resource Spoken Language Understanding [11.002938634213734]
音声言語理解(SLU)は、音声認識(ASR)と自然言語理解(NLU)を統一的なタスクとして扱う。
低リソースSLUタスクの性能向上のために,メタ補助学習に基づくASRとNLUのジョイントトレーニング手法を利用する。
論文 参考訳(メタデータ) (2022-06-26T03:12:33Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - Speech to Text Adaptation: Towards an Efficient Cross-Modal Distillation [15.225080891662675]
音声理解は、膨大な事前訓練された言語モデルの推測の恩恵を受けることができる。
LMの上位層から完全に音声ベースのモジュールに知識を共有できるという仮説を実験的に検証した。
論文 参考訳(メタデータ) (2020-05-17T10:50:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。