論文の概要: On Building Spoken Language Understanding Systems for Low Resourced
Languages
- arxiv url: http://arxiv.org/abs/2205.12818v1
- Date: Wed, 25 May 2022 14:44:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 13:43:47.079750
- Title: On Building Spoken Language Understanding Systems for Low Resourced
Languages
- Title(参考訳): 低資源言語のための音声言語理解システムの構築について
- Authors: Akshat Gupta
- Abstract要約: 極端に低リソースな環境を探索する一連の実験を提示する。
インテント毎に1つのデータポイントをトレーニングし、データセットに1つの話者しか持たないシステムでインテント分類を行う。
このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いる場合、音声特徴を用いた場合よりもかなり良い結果が得られた。
- 参考スコア(独自算出の注目度): 1.2183405753834562
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialog systems are slowly becoming and integral part of the human
experience due to their various advantages over textual interfaces. Spoken
language understanding (SLU) systems are fundamental building blocks of spoken
dialog systems. But creating SLU systems for low resourced languages is still a
challenge. In a large number of low resourced language, we don't have access to
enough data to build automatic speech recognition (ASR) technologies, which are
fundamental to any SLU system. Also, ASR based SLU systems do not generalize to
unwritten languages. In this paper, we present a series of experiments to
explore extremely low-resourced settings where we perform intent classification
with systems trained on as low as one data-point per intent and with only one
speaker in the dataset. We also work in a low-resourced setting where we do not
use language specific ASR systems to transcribe input speech, which compounds
the challenge of building SLU systems to simulate a true low-resourced setting.
We test our system on Belgian Dutch (Flemish) and English and find that using
phonetic transcriptions to make intent classification systems in such
low-resourced setting performs significantly better than using speech features.
Specifically, when using a phonetic transcription based system over a feature
based system, we see average improvements of 12.37% and 13.08% for binary and
four-class classification problems respectively, when averaged over 49
different experimental settings.
- Abstract(参考訳): 音声対話システムは、テキストインターフェースに対する様々なアドバンテージのために、人間エクスペリエンスの緩やかで不可欠な部分になりつつある。
音声言語理解(slu)システムは、音声対話システムの基本構成要素である。
しかし、低リソース言語向けのSLUシステムの開発は依然として課題である。
多くの低リソース言語では、いかなるSLUシステムにも基本となる自動音声認識(ASR)技術を構築するのに十分なデータにアクセスできない。
また、ASRベースのSLUシステムは、非記述言語に一般化しない。
本稿では,意図1つのデータポイントとデータセットに1つの話者しか持たないシステムを用いて,インテント分類を行う,極端に低リソースな設定を探索する一連の実験について述べる。
また、言語固有のASRシステムを使用して入力音声の書き起こしを行わない低リソース環境でも、真の低リソース設定をシミュレートするためにSLUシステムを構築するという課題が複雑化している。
ベルギーのオランダ語(フランドル語)と英語で本システムをテストすると,このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いることで,音声特徴よりもはるかに優れた性能が得られることがわかった。
具体的には、機能ベースシステム上で音声転写ベースのシステムを使用する場合、平均49以上の実験設定において、バイナリと4クラスの分類問題に対して平均12.37%と13.08%の改善が見られた。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Creating Spoken Dialog Systems in Ultra-Low Resourced Settings [0.0]
我々はフレミッシュにおける意図分類のための既存の光モデルを構築している。
音声レベルと音声書き起こしレベルという2つのレベルに異なる拡張手法を適用した。
両レベルにおいて、我々のデータ拡張技術は、多くのタスクにおけるモデルパフォーマンスを改善していることがわかった。
論文 参考訳(メタデータ) (2023-12-11T10:04:05Z) - Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Word-Free Spoken Language Understanding for Mandarin-Chinese [9.681114975579211]
携帯電話上で直接動作するTransformerベースのSLUシステムを提案する。
この音響ベースのSLUシステムは2ブロックのみで構成されており、ASRモジュールの存在を必要としない。
マンダリン中国語における意図分類データセットにおけるシステムの有効性を検証する。
論文 参考訳(メタデータ) (2021-07-01T02:31:22Z) - Low-Resource Spoken Language Identification Using Self-Attentive Pooling
and Deep 1D Time-Channel Separable Convolutions [0.0]
本稿では,言語識別タスクの低リソース設定において,自己認識型プーリング層を用いた畳み込みニューラルネットワークが有望な結果を示すことを示す。
また、性別、年齢などの他の分類要素が良好に評価されるようにデータセットが十分に多様である場合、LIDシステムの混乱行列が言語類似度測定を担っているという仮説を定式化する。
論文 参考訳(メタデータ) (2021-05-31T18:35:27Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。