論文の概要: Learning to Rank Intents in Voice Assistants
- arxiv url: http://arxiv.org/abs/2005.00119v2
- Date: Mon, 4 May 2020 03:19:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 03:41:10.978932
- Title: Learning to Rank Intents in Voice Assistants
- Title(参考訳): 音声アシスタントにおけるインテントのランク付け学習
- Authors: Raviteja Anantha, Srinivas Chappidi, and William Dawoodi
- Abstract要約: 本稿では,意図的ランキングタスクのための新しいエネルギーモデルを提案する。
提案手法は,誤差率を3.8%削減することで,既存の手法よりも優れていることを示す。
また,意図的ランキングタスクにおけるアルゴリズムのロバスト性を評価し,そのロバスト性について33.3%向上したことを示す。
- 参考スコア(独自算出の注目度): 2.102846336724103
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice Assistants aim to fulfill user requests by choosing the best intent
from multiple options generated by its Automated Speech Recognition and Natural
Language Understanding sub-systems. However, voice assistants do not always
produce the expected results. This can happen because voice assistants choose
from ambiguous intents - user-specific or domain-specific contextual
information reduces the ambiguity of the user request. Additionally the user
information-state can be leveraged to understand how relevant/executable a
specific intent is for a user request. In this work, we propose a novel
Energy-based model for the intent ranking task, where we learn an affinity
metric and model the trade-off between extracted meaning from speech utterances
and relevance/executability aspects of the intent. Furthermore we present a
Multisource Denoising Autoencoder based pretraining that is capable of learning
fused representations of data from multiple sources. We empirically show our
approach outperforms existing state of the art methods by reducing the
error-rate by 3.8%, which in turn reduces ambiguity and eliminates undesired
dead-ends leading to better user experience. Finally, we evaluate the
robustness of our algorithm on the intent ranking task and show our algorithm
improves the robustness by 33.3%.
- Abstract(参考訳): 音声アシスタントは、自動音声認識と自然言語理解サブシステムによって生成される複数のオプションからベストインテントを選択することで、ユーザの要求を満たすことを目指している。
しかし、音声アシスタントが常に期待する結果を生成するとは限らない。
音声アシスタントはあいまいな意図から選択する - ユーザ固有の、あるいはドメイン固有のコンテキスト情報によって、ユーザ要求のあいまいさが低減される。
さらに、ユーザ情報ステートを利用して、特定のインテントがユーザリクエストにどの程度関連性/実行可能かを理解することができます。
本研究では,親和性指標を学習し,音声発話から抽出された意味と意図の関連/実行可能性の側面とのトレードオフをモデル化する,意図ランキングタスクのための新しいエネルギーベースモデルを提案する。
さらに,複数のソースからデータの融合表現を学習可能な,マルチソース・デノナイズ・オートエンコーダに基づく事前学習を提案する。
提案手法は,誤差率を3.8%削減することで既存の手法よりも優れており,その結果,曖昧さを低減し,望ましくないデッドエンドを除去し,ユーザエクスペリエンスを向上させる。
最後に,意図的ランキングタスクにおけるアルゴリズムの頑健さを評価し,その頑健さを33.3%向上させることを示す。
関連論文リスト
- Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - Improving the Intent Classification accuracy in Noisy Environment [9.447108578893639]
本稿では,エンド・ツー・エンドのニューラルモデルを用いた意図分類課題に対して,環境騒音とその関連ノイズ低減手法について検討する。
この課題に対して,音声強調処理を用いることで,雑音条件下での分類精度を大幅に向上させる。
論文 参考訳(メタデータ) (2023-03-12T06:11:44Z) - Zero-Shot Prompting for Implicit Intent Prediction and Recommendation
with Commonsense Reasoning [28.441725610692714]
本稿では,ユーザ発話に基づいて暗黙の意図を自動推論する多ドメイン対話システムを提案する。
提案フレームワークは暗黙の意図の実現に有効であり,0ショット方式でボットを推奨する。
論文 参考訳(メタデータ) (2022-10-12T03:33:49Z) - Template-based Approach to Zero-shot Intent Recognition [7.330908962006392]
本稿では、意図認識のための一般化されたゼロショット設定について検討する。
ゼロショットテキスト分類のベストプラクティスに従い、文ペアモデリングアプローチを用いてタスクを扱います。
未確認の意図に対して,従来のf1尺度を最大16%上回りました。
論文 参考訳(メタデータ) (2022-06-22T08:44:59Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Intent Classification Using Pre-Trained Embeddings For Low Resource
Languages [67.40810139354028]
言語固有の音声認識に依存しない音声理解システムを構築することは、言語処理において重要でない問題である。
本稿では,事前学習した音響モデルを用いて,低資源シナリオにおける音声言語理解を実現するための比較研究を提案する。
私たちは、ハイ、ミディアム、低リソースシナリオをシミュレートするために、それぞれ異なるデータサイズを持つ英語、Sinhala、Tamilの3つの異なる言語で実験を行います。
論文 参考訳(メタデータ) (2021-10-18T13:06:59Z) - Speaker-Conditioned Hierarchical Modeling for Automated Speech Scoring [60.55025339250815]
本研究では、話者条件付き階層型モデリングと呼ばれる非ネイティブASSのための新しいディープラーニング手法を提案する。
本手法では, 口腔熟練度テストが候補に対して複数の応答を評価できるという事実を生かして, 候補に対して複数の応答を評価できる。これらの応答からコンテキストを抽出し, ネットワークに付加的な話者固有のコンテキストとして与えて, 特定の応答をスコアする。
論文 参考訳(メタデータ) (2021-08-30T07:00:28Z) - Leveraging Acoustic and Linguistic Embeddings from Pretrained speech and
language Models for Intent Classification [81.80311855996584]
本研究では,前訓練された音声認識システムから抽出した音響特性と,前訓練された言語モデルから学習した言語特性を用いた新しい意図分類フレームワークを提案する。
ATIS と Fluent 音声コーパスの精度は 90.86% と 99.07% である。
論文 参考訳(メタデータ) (2021-02-15T07:20:06Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z) - IART: Intent-aware Response Ranking with Transformers in
Information-seeking Conversation Systems [80.0781718687327]
我々は、情報探索会話におけるユーザ意図パターンを分析し、意図認識型ニューラルレスポンスランキングモデル「IART」を提案する。
IARTは、ユーザ意図モデリングと言語表現学習とTransformerアーキテクチャの統合の上に構築されている。
論文 参考訳(メタデータ) (2020-02-03T05:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。