論文の概要: STEER: Semantic Turn Extension-Expansion Recognition for Voice
Assistants
- arxiv url: http://arxiv.org/abs/2310.16990v1
- Date: Wed, 25 Oct 2023 20:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:25:05.878206
- Title: STEER: Semantic Turn Extension-Expansion Recognition for Voice
Assistants
- Title(参考訳): steer: 音声アシスタントのためのセマンティクスターン拡張拡張認識
- Authors: Leon Liyang Zhang, Jiarui Lu, Joel Ruben Antony Moniz, Aditya
Kulkarni, Dhivya Piraviperumal, Tien Dung Tran, Nicholas Tzou, Hong Yu
- Abstract要約: STEERは、従順方向がユーザの以前のコマンドを操る試みであるかどうかを予測するステアリング検出モデルである。
実験の結果, サンプルデータに対して95%以上の精度で, 操舵意図の同定に有望な性能を示した。
入力としてユーザ書き起こしのみに依存することに加えて,モデルの強化版であるSTEER+を導入する。
- 参考スコア(独自算出の注目度): 8.457830882336332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the context of a voice assistant system, steering refers to the phenomenon
in which a user issues a follow-up command attempting to direct or clarify a
previous turn. We propose STEER, a steering detection model that predicts
whether a follow-up turn is a user's attempt to steer the previous command.
Constructing a training dataset for steering use cases poses challenges due to
the cold-start problem. To overcome this, we developed heuristic rules to
sample opt-in usage data, approximating positive and negative samples without
any annotation. Our experimental results show promising performance in
identifying steering intent, with over 95% accuracy on our sampled data.
Moreover, STEER, in conjunction with our sampling strategy, aligns effectively
with real-world steering scenarios, as evidenced by its strong zero-shot
performance on a human-graded evaluation set. In addition to relying solely on
user transcripts as input, we introduce STEER+, an enhanced version of the
model. STEER+ utilizes a semantic parse tree to provide more context on
out-of-vocabulary words, such as named entities that often occur at the
sentence boundary. This further improves model performance, reducing error rate
in domains where entities frequently appear, such as messaging. Lastly, we
present a data analysis that highlights the improvement in user experience when
voice assistants support steering use cases.
- Abstract(参考訳): 音声アシスタントシステムにおいて、ステアリング(steering)とは、ユーザが前回を指示または明らかにしようとするフォローアップコマンドを発行する現象を指す。
STEERは、従順方向がユーザの以前のコマンドを操る試みであるかどうかを予測するステアリング検出モデルである。
ユースケースをステアリングするためのトレーニングデータセットの構築は、コールドスタートの問題による課題を引き起こす。
これを解決するため,オプトイン利用データに対するヒューリスティックなルールを開発し,アノテーションを使わずに正と負のサンプルを近似した。
実験の結果, サンプルデータに対して95%以上の精度でステアリング意図の同定に有望な性能を示した。
さらに,STEERはサンプリング戦略と合わせて実世界のステアリングシナリオと効果的に整合し,人格評価セット上でのゼロショット性能が強いことが証明された。
入力としてユーザ書き起こしのみに依存することに加えて,モデルの強化版であるSTEER+を導入する。
STEER+はセマンティックパースツリーを使用して、文境界でしばしば発生する名前付きエンティティのような語彙外単語のコンテキストを提供する。
これにより、メッセージなどのエンティティが頻繁に現れるドメインにおけるエラー率を削減し、モデルパフォーマンスがさらに向上する。
最後に,音声アシスタントがステアリングユースケースをサポートする場合に,ユーザエクスペリエンスの向上を強調するデータ分析を行う。
関連論文リスト
- Device-Directed Speech Detection for Follow-up Conversations Using Large Language Models [16.920823078873095]
仮想アシスタント(VA)とのフォローアップ会話により、ユーザはキーワードを使って繰り返し呼び出すことなく、VAとシームレスに対話できる。
本稿では,従来の音声文脈とASRの不確実性との連成モデルにより,この手法が大きな利益をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-28T19:43:43Z) - Large Language Model Enhanced Hard Sample Identification for Denoising Recommendation [4.297249011611168]
暗黙のフィードバックは、しばしばレコメンデーションシステムを構築するために使われる。
従来の研究では、分散したパターンに基づいてノイズの多いサンプルを識別することで、これを緩和しようと試みてきた。
大規模言語モデル強化型ハードサンプルデノゲーションフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T14:57:09Z) - iKUN: Speak to Trackers without Retraining [21.555469501789577]
市販トラッカーとの通信を実現するため,iKUNと呼ばれる挿入可能な知識統一ネットワークを提案する。
局所化精度を向上させるために,プロセスノイズを動的に調整するKalman filter (NKF) のニューラルバージョンを提案する。
また、パブリックなDanceTrackデータセットをモーションとドレッシング記述で拡張することで、より困難なデータセットであるRefer-Danceにもコントリビュートしています。
論文 参考訳(メタデータ) (2023-12-25T11:48:55Z) - Wiki-En-ASR-Adapt: Large-scale synthetic dataset for English ASR
Customization [66.22007368434633]
自動音声認識(ASR)のコンテキストスペルチェックカスタマイズのための,最初の大規模公開合成データセットを提案する。
提案手法により、崩壊したASR仮説の数百万の現実的な例を作成し、カスタマイズタスクの非自明なバイアスリストをシミュレートすることができる。
提案したデータセット上で,オープンソースのカスタマイズモデルをトレーニングした実験を報告し,ハードネガティブなバイアスフレーズの注入がWERを減少させ,誤報の回数を減少させることを示す。
論文 参考訳(メタデータ) (2023-09-29T14:18:59Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - STOP: A dataset for Spoken Task Oriented Semantic Parsing [66.14615249745448]
エンドツーエンド音声言語理解(SLU)は単一モデルを用いて音声から直接意図を予測する。
Spoken Task-Oriented semantic Parsing (STOP) データセットをリリースします。
人間が録音した音声に加えて、我々はTS生成バージョンをリリースし、エンド・ツー・エンドのSLUシステムの低リソース領域適応の性能をベンチマークする。
論文 参考訳(メタデータ) (2022-06-29T00:36:34Z) - Device-Directed Speech Detection: Regularization via Distillation for
Weakly-Supervised Models [13.456066434598155]
我々は、特定のウェイクワードを含まないデバイスに向けられた音声を検出する問題に対処する。
具体的には、タッチベースの呼び出しによるオーディオに焦点を当てます。
論文 参考訳(メタデータ) (2022-03-30T01:27:39Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Effective Sequence-to-Sequence Dialogue State Tracking [22.606650177804966]
事前学習対象の選択は、状態追跡品質に有意な違いをもたらすことを示す。
また、状態追跡モデルに対して、テキスト要約のための予測に基づく事前学習目的であるPegasusについても検討する。
その結果,対話状態の追跡には,遠隔要約タスクの事前学習が驚くほど有効であることが判明した。
論文 参考訳(メタデータ) (2021-08-31T17:27:59Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。