論文の概要: Towards Reducing the Need for Speech Training Data To Build Spoken
Language Understanding Systems
- arxiv url: http://arxiv.org/abs/2203.00006v1
- Date: Sat, 26 Feb 2022 15:21:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-02 14:50:48.587953
- Title: Towards Reducing the Need for Speech Training Data To Build Spoken
Language Understanding Systems
- Title(参考訳): 音声言語理解システム構築のための音声学習データの必要性軽減に向けて
- Authors: Samuel Thomas, Hong-Kwang J. Kuo, Brian Kingsbury, George Saon
- Abstract要約: 適切なラベルを持つ大量のテキストデータは通常利用可能である。
本稿では,これらのテキストリソースを用いて,E2E SLUシステムを効果的に構築できる新しいテキスト表現と学習手法を提案する。
- 参考スコア(独自算出の注目度): 29.256853083988634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of speech data annotated with labels required for spoken language
understanding (SLU) is often a major hurdle in building end-to-end (E2E)
systems that can directly process speech inputs. In contrast, large amounts of
text data with suitable labels are usually available. In this paper, we propose
a novel text representation and training methodology that allows E2E SLU
systems to be effectively constructed using these text resources. With very
limited amounts of additional speech, we show that these models can be further
improved to perform at levels close to similar systems built on the full speech
datasets. The efficacy of our proposed approach is demonstrated on both intent
and entity tasks using three different SLU datasets. With text-only training,
the proposed system achieves up to 90% of the performance possible with full
speech training. With just an additional 10% of speech data, these models
significantly improve further to 97% of full performance.
- Abstract(参考訳): 音声言語理解(SLU)に必要なラベルを付した音声データがないことは、音声入力を直接処理できるエンドツーエンド(E2E)システムを構築する上で、しばしば大きなハードルとなる。
対照的に、適切なラベルを持つ大量のテキストデータは通常利用可能である。
本稿では,これらのテキストリソースを用いて,E2E SLUシステムを効果的に構築できる新しいテキスト表現と学習手法を提案する。
追加音声の量は非常に限られており、これらのモデルが完全な音声データセット上に構築された類似システムに近いレベルでの性能をさらに向上できることを示している。
提案手法の有効性は,3つの異なるSLUデータセットを用いて,目的と実体の両方に示される。
テキストのみの学習で、本システムは完全な音声訓練で可能なパフォーマンスの最大90%を達成する。
音声データの10%を追加するだけで、これらのモデルはパフォーマンスの97%まで大幅に向上した。
関連論文リスト
- Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Textless Speech-to-Speech Translation on Real Data [49.134208897722246]
本研究では、ある言語から別の言語への翻訳が可能なテキストなし音声音声翻訳システム(S2ST)を提案する。
マルチ話者ターゲット音声をモデル化し、実世界のS2STデータを用いてシステムを訓練する際の課題に対処する。
論文 参考訳(メタデータ) (2021-12-15T18:56:35Z) - WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech
Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。
WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。
トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文 参考訳(メタデータ) (2021-10-26T17:55:19Z) - Speak or Chat with Me: End-to-End Spoken Language Understanding System
with Flexible Inputs [21.658650440278063]
本稿では, 音声, ASR 転写文, あるいはその両方から, フレキシブルな入力から意図を予測できる新しいシステムを提案する。
本実験は,これらの事前学習および微調整戦略に有意な優位性を示し,競争目的分類性能を実現するシステムを実現した。
論文 参考訳(メタデータ) (2021-04-07T20:48:08Z) - Exploring Transfer Learning For End-to-End Spoken Language Understanding [8.317084844841323]
スピーチから仮説に直接移動するエンドツーエンド(E2E)システムは、より魅力的なオプションです。
音声からテキストまでの複数のタスクを共同トレーニングするE2Eシステムを提案する。
個々のタスクで訓練されたE2Eモデルの性能を上回ります。
論文 参考訳(メタデータ) (2020-12-15T19:02:15Z) - Leveraging Unpaired Text Data for Training End-to-End Speech-to-Intent
Systems [39.79749518035203]
音声から直接意図を抽出するエンド・ツー・エンド(E2E)ニューラルネットワーク音声-インテントシステムのトレーニングには,大量の意図ラベル付き音声データが必要である。
我々はCTCベースのS2Iシステムを実装し、最先端の従来のSLUシステムの性能に適合する。
論文 参考訳(メタデータ) (2020-10-08T22:16:26Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。