論文の概要: Follow-on Question Suggestion via Voice Hints for Voice Assistants
- arxiv url: http://arxiv.org/abs/2310.17034v1
- Date: Wed, 25 Oct 2023 22:22:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:04:24.220156
- Title: Follow-on Question Suggestion via Voice Hints for Voice Assistants
- Title(参考訳): 音声アシスタントのための音声ヒントによる質問のフォローオン提案
- Authors: Besnik Fetahu, Pedro Faustini, Giuseppe Castellucci, Anjie Fang, Oleg
Rokhlenko, Shervin Malmasi
- Abstract要約: 我々は,ユーザがフォローアップ質問をできるように,コンパクトで自然な音声ヒントで質問を提案する新しい課題に取り組む。
質問リストから音声ヒントを生成するために,シーケンス・ツー・シーケンス・トランスフォーマを用いたベースラインとアプローチを提案する。
以上の結果から,提案する質問を和らげるナイーブなアプローチが,音声のヒントに乏しいことが示唆された。
- 参考スコア(独自算出の注目度): 29.531005346608215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The adoption of voice assistants like Alexa or Siri has grown rapidly,
allowing users to instantly access information via voice search. Query
suggestion is a standard feature of screen-based search experiences, allowing
users to explore additional topics. However, this is not trivial to implement
in voice-based settings. To enable this, we tackle the novel task of suggesting
questions with compact and natural voice hints to allow users to ask follow-up
questions.
We define the task, ground it in syntactic theory and outline linguistic
desiderata for spoken hints. We propose baselines and an approach using
sequence-to-sequence Transformers to generate spoken hints from a list of
questions. Using a new dataset of 6681 input questions and human written hints,
we evaluated the models with automatic metrics and human evaluation. Results
show that a naive approach of concatenating suggested questions creates poor
voice hints. Our approach, which applies a linguistically-motivated pretraining
task was strongly preferred by humans for producing the most natural hints.
- Abstract(参考訳): AlexaやSiriのような音声アシスタントの採用は急速に増加し、ユーザーは音声検索を通じて即座に情報にアクセスできるようになった。
クエリ提案は画面ベースの検索体験の標準的な機能であり、ユーザーは追加のトピックを探索することができる。
しかし、音声ベースの設定で実装するのは簡単ではない。
これを実現するため,我々は,ユーザがフォローアップ質問を行えるように,コンパクトで自然な音声ヒントによる質問を提案するという新しい課題に取り組む。
タスクを定義し,構文理論に基礎を置き,音声ヒントに対する言語的デシデラタを概説する。
本稿では,質問リストから音声ヒントを生成するためのベースラインとシーケンシャル・ツー・シーケンス変換を用いたアプローチを提案する。
6681の入力質問と人文によるヒントのデータセットを用いて,モデルの自動評価と人文評価を行った。
その結果,提案する質問を結合するナイーブなアプローチは,音声のヒントが乏しいことがわかった。
言語的に動機づけた事前学習タスクを適用したアプローチは,人間にとって最も自然なヒントを生み出すことが強く望まれた。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Empowering Whisper as a Joint Multi-Talker and Target-Talker Speech Recognition System [73.34663391495616]
本稿では,複数話者と目標話者の音声認識タスクを併用する先駆的手法を提案する。
具体的には、Whisperを凍結し、Sidecarセパレータをエンコーダに差し込み、複数の話者に対する混合埋め込みを分離する。
AishellMix Mandarin データセット上で,マルチストーカー ASR 上で許容できるゼロショット性能を提供する。
論文 参考訳(メタデータ) (2024-07-13T09:28:24Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Rewriting the Script: Adapting Text Instructions for Voice Interaction [39.54213483588498]
音声アシスタントが複雑なタスクガイダンスにもたらす支配的アプローチの限界について検討する。
そこで本稿では,音声アシスタントが音声対話を通じて容易にコミュニケーションできる形態に変換できる8つの方法を提案する。
論文 参考訳(メタデータ) (2023-06-16T17:43:00Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Evaluating Mixed-initiative Conversational Search Systems via User
Simulation [9.066817876491053]
このような検索システムの自動評価のための対話型ユーザシミュレータUSiを提案する。
Ui が生成した応答は,その基盤となる情報要求と同等であり,人間による回答に匹敵するものであることを示す。
論文 参考訳(メタデータ) (2022-04-17T16:27:33Z) - Soliciting User Preferences in Conversational Recommender Systems via
Usage-related Questions [21.184555512370093]
項目使用量に基づいて暗黙的な質問を行うことにより、嗜好の誘惑に対する新しいアプローチを提案する。
まず,項目利用情報を含む大規模なレビューコーパスから文を識別する。
そして,ニューラルネットワークモデルを用いて,これらの文から暗黙の選好質問を生成する。
論文 参考訳(メタデータ) (2021-11-26T12:23:14Z) - Using Voice and Biofeedback to Predict User Engagement during
Requirements Interviews [11.277063517143565]
本稿では,生理的特徴および音声的特徴の観点から生体データを用いて,ユーザエンゲージメントに関する情報とインタビューを補完することを提案する。
本アプローチは,empatica e4リストバンドを用いて,身体データを収集しながらユーザへインタビューすることで評価する。
その結果,生体データを用いた教師付き機械学習アルゴリズムの学習により,ユーザのエンゲージメントを予測することができた。
論文 参考訳(メタデータ) (2021-04-06T10:34:36Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Learning to Rank Intents in Voice Assistants [2.102846336724103]
本稿では,意図的ランキングタスクのための新しいエネルギーモデルを提案する。
提案手法は,誤差率を3.8%削減することで,既存の手法よりも優れていることを示す。
また,意図的ランキングタスクにおけるアルゴリズムのロバスト性を評価し,そのロバスト性について33.3%向上したことを示す。
論文 参考訳(メタデータ) (2020-04-30T21:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。