論文の概要: Unsupervised Spoken Utterance Classification
- arxiv url: http://arxiv.org/abs/2107.01068v1
- Date: Fri, 2 Jul 2021 13:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-05 18:06:16.462314
- Title: Unsupervised Spoken Utterance Classification
- Title(参考訳): 教師なし音声発話分類
- Authors: Shahab Jalalvand and Srinivas Bangalore
- Abstract要約: インテリジェントバーチャルアシスタント(IVA)は、音声発話分類(SUC)による通話ルーティングにおける不注意な会話を可能にする
意図ラベルと意図ごとのパラフレーズを除いてドメイン内のデータを必要としない教師なし音声音声分類手法(USUC)を導入する。
USUCは従来の発話分類法よりも、分類誤り率を32.9%から27.0%に減らし、教師付きデータを必要としない。
- 参考スコア(独自算出の注目度): 5.738123229553156
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: An intelligent virtual assistant (IVA) enables effortless conversations in
call routing through spoken utterance classification (SUC) which is a special
form of spoken language understanding (SLU). Building a SUC system requires a
large amount of supervised in-domain data that is not always available. In this
paper, we introduce an unsupervised spoken utterance classification approach
(USUC) that does not require any in-domain data except for the intent labels
and a few para-phrases per intent. USUC is consisting of a KNN classifier (K=1)
and a complex embedding model trained on a large amount of unsupervised
customer service corpus. Among all embedding models, we demonstrate that Elmo
works best for USUC. However, an Elmo model is too slow to be used at run-time
for call routing. To resolve this issue, first, we compute the uni- and bi-gram
embedding vectors offline and we build a lookup table of n-grams and their
corresponding embedding vector. Then we use this table to compute sentence
embedding vectors at run-time, along with back-off techniques for unseen
n-grams. Experiments show that USUC outperforms the traditional utterance
classification methods by reducing the classification error rate from 32.9% to
27.0% without requiring supervised data. Moreover, our lookup and back-off
technique increases the processing speed from 16 utterances per second to 118
utterances per second.
- Abstract(参考訳): インテリジェントバーチャルアシスタント(IVA)は、音声言語理解(SLU)の特殊な形式である音声発話分類(SUC)を通じて、通話ルーティングにおける努力的な会話を可能にする。
SUCシステムを構築するには、常に利用できない大量のドメイン内データを必要とする。
本稿では、意図ラベルと意図ごとのパラフレーズを除いてドメイン内のデータを必要としない教師なし音声音声分類手法(USUC)を提案する。
USUCはKNN分類器(K=1)と、大量の教師なし顧客サービスコーパスに基づいてトレーニングされた複雑な埋め込みモデルで構成される。
すべての埋め込みモデルの中で、ElmoがUSUCに最適であることを示す。
しかし、elmoモデルは呼び出しルーティングのために実行時に使用するには遅すぎる。
この問題を解決するため、まず、ユニグラフおよびバイグラム組込みベクトルをオフラインで計算し、n-gramとその組込みベクトルのルックアップテーブルを構築する。
次に,このテーブルを用いて文の埋め込みベクトルをリアルタイムに計算し,n-gramのバックオフ手法を提案する。
実験により,usucは,教師付きデータなしで分類誤り率を32.9%から27.0%に下げることにより,従来の発話分類法を上回った。
さらに,本手法では,処理速度を毎秒16発話から毎秒118発話に向上させる。
関連論文リスト
- Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Explainable prediction of Qcodes for NOTAMs using column generation [4.138596740246665]
そこで我々は,NOTAMのためのQcodeを,いくつかの説明とともに予測するツールを開発した。
カラム生成を用いた解釈可能なバイナリ分類を拡張する方法を提案する。
提案手法は,最先端の機械学習アルゴリズムと良好に比較できることを示す。
論文 参考訳(メタデータ) (2022-08-09T14:30:51Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Boosting the Performance of Semi-Supervised Learning with Unsupervised
Clustering [10.033658645311188]
学習中の間欠的にラベルを完全に無視することは,小サンプル体制における性能を著しく向上させることを示す。
本手法は,最先端のSSLアルゴリズムの高速化に有効であることを示す。
論文 参考訳(メタデータ) (2020-12-01T14:19:14Z) - GPU-based Self-Organizing Maps for Post-Labeled Few-Shot Unsupervised
Learning [2.922007656878633]
少ないショット分類は、非常に限られたラベル付き例を使って分類器を訓練することを目的としている機械学習の課題である。
本稿では,無指導で表現を学習する分類タスクである,ラベル付き数発の教師なし学習の問題について,アノテートされたごく少数の例を用いて後述する。
論文 参考訳(メタデータ) (2020-09-04T13:22:28Z) - Wake Word Detection with Alignment-Free Lattice-Free MMI [66.12175350462263]
音声言語インタフェース、例えばパーソナルデジタルアシスタントは、音声入力の処理を開始するためにウェイクワードに依存している。
本稿では,部分的にラベル付けされたトレーニングデータから,ハイブリッドDNN/HMM覚醒単語検出システムの学習方法を提案する。
提案手法を2つの実データ集合上で評価し, 前報よりも50%~90%の誤報率の減少率を示した。
論文 参考訳(メタデータ) (2020-05-17T19:22:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。