論文の概要: Word-Free Spoken Language Understanding for Mandarin-Chinese
- arxiv url: http://arxiv.org/abs/2107.00186v1
- Date: Thu, 1 Jul 2021 02:31:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:38:28.634472
- Title: Word-Free Spoken Language Understanding for Mandarin-Chinese
- Title(参考訳): 中国語における単語自由言語理解
- Authors: Zhiyuan Guo, Yuexin Li, Guo Chen, Xingyu Chen, Akshat Gupta
- Abstract要約: 携帯電話上で直接動作するTransformerベースのSLUシステムを提案する。
この音響ベースのSLUシステムは2ブロックのみで構成されており、ASRモジュールの存在を必要としない。
マンダリン中国語における意図分類データセットにおけるシステムの有効性を検証する。
- 参考スコア(独自算出の注目度): 9.681114975579211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken dialogue systems such as Siri and Alexa provide great convenience to
people's everyday life. However, current spoken language understanding (SLU)
pipelines largely depend on automatic speech recognition (ASR) modules, which
require a large amount of language-specific training data. In this paper, we
propose a Transformer-based SLU system that works directly on phones. This
acoustic-based SLU system consists of only two blocks and does not require the
presence of ASR module. The first block is a universal phone recognition
system, and the second block is a Transformer-based language model for phones.
We verify the effectiveness of the system on an intent classification dataset
in Mandarin Chinese.
- Abstract(参考訳): SiriやAlexaといった音声対話システムは、人々の日常生活に非常に便利です。
しかし、現在の音声言語理解(SLU)パイプラインは、多くの言語固有の訓練データを必要とする自動音声認識(ASR)モジュールに依存している。
本稿では,携帯電話上で直接動作するTransformerベースのSLUシステムを提案する。
この音響ベースのSLUシステムは2ブロックのみで構成され、ASRモジュールの存在を必要としない。
第1ブロックは普遍的な電話認識システムであり、第2ブロックは電話用トランスフォーマーベースの言語モデルである。
マンダリン中国語の意図分類データセットにおけるシステムの有効性を検証する。
関連論文リスト
- Finstreder: Simple and fast Spoken Language Understanding with Finite
State Transducers using modern Speech-to-Text models [69.35569554213679]
Spoken Language Understanding (SLU) では、音声コマンドから重要な情報を抽出する。
本稿では,有限状態トランスデューサにインテントやエンティティを埋め込む簡単な方法を提案する。
論文 参考訳(メタデータ) (2022-06-29T12:49:53Z) - On Building Spoken Language Understanding Systems for Low Resourced
Languages [1.2183405753834562]
極端に低リソースな環境を探索する一連の実験を提示する。
インテント毎に1つのデータポイントをトレーニングし、データセットに1つの話者しか持たないシステムでインテント分類を行う。
このような低リソース環境における意図的分類システムを構築するために音声文字起こしを用いる場合、音声特徴を用いた場合よりもかなり良い結果が得られた。
論文 参考訳(メタデータ) (2022-05-25T14:44:51Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Multilingual and crosslingual speech recognition using
phonological-vector based phone embeddings [20.93287944284448]
そこで本稿では,音韻処理による音声の埋め込み(トップダウン)とディープニューラルネットワーク(DNN)に基づく音響特徴抽出(ボットアップ)を併用して,音声の確率を計算することを提案する。
音声認識には音響から音韻的特徴への逆変換は不要である。
CommonVoiceデータセット(ドイツ語、フランス語、スペイン語、イタリア語)とAISHLL-1データセット(マンダリン)で実験が行われた。
論文 参考訳(メタデータ) (2021-07-11T12:56:47Z) - Tusom2021: A Phonetically Transcribed Speech Dataset from an Endangered
Language for Universal Phone Recognition Experiments [7.286387368812729]
本稿では,絶滅危惧国タングク語東トゥーソム語で2255発の発声を公に書き起こしたコーパスを提示する。
データセットは音素ではなく電話の点で転写されるため、多くの大きなデータセットよりも普遍的な電話認識システムに適しています。
論文 参考訳(メタデータ) (2021-04-02T00:26:10Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。