論文の概要: Meta Auxiliary Learning for Low-resource Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2206.12774v1
- Date: Sun, 26 Jun 2022 03:12:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 16:05:03.252672
- Title: Meta Auxiliary Learning for Low-resource Spoken Language Understanding
- Title(参考訳): 低リソース音声言語理解のためのメタ補助学習
- Authors: Yingying Gao, Junlan Feng, Chao Deng, Shilei Zhang
- Abstract要約: 音声言語理解(SLU)は、音声認識(ASR)と自然言語理解(NLU)を統一的なタスクとして扱う。
低リソースSLUタスクの性能向上のために,メタ補助学習に基づくASRとNLUのジョイントトレーニング手法を利用する。
- 参考スコア(独自算出の注目度): 11.002938634213734
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Spoken language understanding (SLU) treats automatic speech recognition (ASR)
and natural language understanding (NLU) as a unified task and usually suffers
from data scarcity. We exploit an ASR and NLU joint training method based on
meta auxiliary learning to improve the performance of low-resource SLU task by
only taking advantage of abundant manual transcriptions of speech data. One
obvious advantage of such method is that it provides a flexible framework to
implement a low-resource SLU training task without requiring access to any
further semantic annotations. In particular, a NLU model is taken as label
generation network to predict intent and slot tags from texts; a multi-task
network trains ASR task and SLU task synchronously from speech; and the
predictions of label generation network are delivered to the multi-task network
as semantic targets. The efficiency of the proposed algorithm is demonstrated
with experiments on the public CATSLU dataset, which produces more suitable ASR
hypotheses for the downstream NLU task.
- Abstract(参考訳): 音声言語理解(SLU)は、自動音声認識(ASR)と自然言語理解(NLU)を統一的なタスクとして扱い、通常データ不足に悩まされる。
メタ補助学習に基づくASRとNLUのジョイントトレーニング手法を用いて,音声データの豊富な手書き書き起こしのみを活用することで,低リソースSLUタスクの性能向上を図る。
この方法の明らかな利点の1つは、さらなるセマンティックアノテーションにアクセスすることなく、低リソースのSLUトレーニングタスクを実装する柔軟なフレームワークを提供することである。
特に、テキストからインテントやスロットタグを予測するためにラベル生成ネットワークとしてNLUモデルを用い、マルチタスクネットワークは音声からASRタスクとSLUタスクを同期的に訓練し、ラベル生成ネットワークの予測はセマンティックターゲットとしてマルチタスクネットワークに配信する。
提案アルゴリズムの効率性は、下流のNLUタスクに対してより適切なASR仮説を生成するパブリックCATSLUデータセットの実験で実証される。
関連論文リスト
- Towards ASR Robust Spoken Language Understanding Through In-Context
Learning With Word Confusion Networks [68.79880423713597]
本稿では,トップ仮説のみに頼るのではなく,ASRシステムの格子出力を利用する手法を提案する。
音声質問応答と意図分類を網羅した文脈内学習実験により,LLMの音声書き起こしに対する弾力性について明らかにした。
論文 参考訳(メタデータ) (2024-01-05T17:58:10Z) - Leveraging Large Language Models for Exploiting ASR Uncertainty [16.740712975166407]
大規模な言語モデルは、書き起こしのための既製の音声認識システムに依存するか、あるいは内蔵された音声モダリティを備える必要がある。
我々は,高い単語誤り率でLLMの発話意図を理解する能力を制限する音声意図分類タスクに取り組む。
我々は,誤り発生1-best仮説に代えて,ASR仮説のn-bestリストでLLMを推し進めることを提案する。
論文 参考訳(メタデータ) (2023-09-09T17:02:33Z) - Improving Textless Spoken Language Understanding with Discrete Units as
Intermediate Target [58.59044226658916]
Spoken Language Understanding (SLU) は、音声音声から意味情報を抽出することを目的としたタスクである。
本研究では,テキストレスSLUの性能向上のための中間ガイダンスとして離散単位を用いることを提案する。
論文 参考訳(メタデータ) (2023-05-29T14:00:24Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - End-to-End Spoken Language Understanding using RNN-Transducer ASR [14.267028645397266]
本稿では,音声音声からテキスト,意図,スロットを抽出するエンドツーエンド学習音声理解システム(SLU)を提案する。
ストリーミングリカレントニューラルネットワークトランスデューサ(RNNT)ベースの自動音声認識(ASR)モデルからなり、ニューラルネットワークを通じてニューラル自然言語理解(NLU)モデルに接続される。
論文 参考訳(メタデータ) (2021-06-30T09:20:32Z) - Speech To Semantics: Improve ASR and NLU Jointly via All-Neural
Interfaces [17.030832205343195]
本稿では,音声アシスタントを指向した音声から自然言語意図を抽出する言語理解(SLU)の問題について考察する。
ハードウェア制約のあるシナリオにデプロイする機会を開放するために必要な仕様のために、エンドツーエンドのSLUモデルを構築することができる。
共同学習モデルでは,NLUからの意味情報を取り入れたASRの改良や,隠蔽層に符号化されたASRの混乱に露呈することでNLUの改善が示されている。
論文 参考訳(メタデータ) (2020-08-14T02:43:57Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。