論文の概要: Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages
- arxiv url: http://arxiv.org/abs/2011.03646v2
- Date: Fri, 19 Feb 2021 20:59:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:07:11.048348
- Title: Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages
- Title(参考訳): 発見音声単位を用いた低資源言語における音素認識
- Authors: Akshat Gupta, Xinjian Li, Sai Krishna Rallabandi, Alan W Black
- Abstract要約: 本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
- 参考スコア(独自算出の注目度): 51.0542215642794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advancements in language technologies, humans are now speaking to
devices. Increasing the reach of spoken language technologies requires building
systems in local languages. A major bottleneck here are the underlying
data-intensive parts that make up such systems, including automatic speech
recognition (ASR) systems that require large amounts of labelled data. With the
aim of aiding development of spoken dialog systems in low resourced languages,
we propose a novel acoustics based intent recognition system that uses
discovered phonetic units for intent classification. The system is made up of
two blocks - the first block is a universal phone recognition system that
generates a transcript of discovered phonetic units for the input audio, and
the second block performs intent classification from the generated phonetic
transcripts. We propose a CNN+LSTM based architecture and present results for
two languages families - Indic languages and Romance languages, for two
different intent recognition tasks. We also perform multilingual training of
our intent classifier and show improved cross-lingual transfer and zero-shot
performance on an unknown language within the same language family.
- Abstract(参考訳): 近年の言語技術の発展により、人間はデバイスに話しかけている。
話し言葉技術の普及には、ローカル言語でシステムを構築する必要がある。
ここでの大きなボトルネックは、大量のラベル付きデータを必要とする自動音声認識(ASR)システムを含む、そのようなシステムを構成する基礎となるデータ集約部分である。
低資源言語における音声対話システムの開発を支援することを目的として,発見音素単位を意図分類に使用する音響に基づく意図認識システムを提案する。
システムは2つのブロックで構成されており、第1ブロックは、入力音声に対して検出された音素単位の書き起こしを生成する普遍的な音声認識システムであり、第2ブロックは、生成された音素書き起こしから意図的な分類を行う。
本稿では,CNN+LSTMに基づくアーキテクチャを提案し,2つの言語群 – 言語とロマンス語 – に対する2つの異なる意図認識タスクに対する結果を示す。
また,インテント分類器の多言語訓練を行い,同一言語ファミリー内の未知言語に対して,言語間移動とゼロショット性能の向上を示す。
関連論文リスト
- LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - On Building Spoken Language Understanding Systems for Low Resourced
Languages [1.2183405753834562]
極端に低リソースな環境を探索する一連の実験を提示する。
インテント毎に1つのデータポイントをトレーニングし、データセットに1つの話者しか持たないシステムでインテント分類を行う。
このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いる場合、音声特徴を用いた場合よりもかなり良い結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T14:44:51Z) - Automatic Spoken Language Identification using a Time-Delay Neural
Network [0.0]
アラビア語、スペイン語、フランス語、トルコ語を区別するために言語識別システムが作られた。
既存の多言語データセットを使用して、一連の音響モデルのトレーニングを行った。
このシステムは、カスタム多言語言語モデルと特殊発音辞書を備えていた。
論文 参考訳(メタデータ) (2022-05-19T13:47:48Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Word-Free Spoken Language Understanding for Mandarin-Chinese [9.681114975579211]
携帯電話上で直接動作するTransformerベースのSLUシステムを提案する。
この音響ベースのSLUシステムは2ブロックのみで構成されており、ASRモジュールの存在を必要としない。
マンダリン中国語における意図分類データセットにおけるシステムの有効性を検証する。
論文 参考訳(メタデータ) (2021-07-01T02:31:22Z) - Intent Recognition and Unsupervised Slot Identification for Low
Resourced Spoken Dialog Systems [46.705058576039065]
ユニバーサル電話認識システムを用いて音声を音声転写に変換する音響ベースのSLUシステムを提案する。
これらの音声転写から意図認識とスロット識別を行う単語のない自然言語理解モジュールを構築します。
タミルではインテント分類が10%以上改善され,シンハラではインテント分類が5%以上向上した。
論文 参考訳(メタデータ) (2021-04-03T01:58:27Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。