論文の概要: Rewriting the Script: Adapting Text Instructions for Voice Interaction
- arxiv url: http://arxiv.org/abs/2306.09992v1
- Date: Fri, 16 Jun 2023 17:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 19:25:04.971104
- Title: Rewriting the Script: Adapting Text Instructions for Voice Interaction
- Title(参考訳): スクリプトの書き直し:音声対話にテキスト命令を適用する
- Authors: Alyssa Hwang, Natasha Oza, Chris Callison-Burch, Andrew Head
- Abstract要約: 音声アシスタントが複雑なタスクガイダンスにもたらす支配的アプローチの限界について検討する。
そこで本稿では,音声アシスタントが音声対話を通じて容易にコミュニケーションできる形態に変換できる8つの方法を提案する。
- 参考スコア(独自算出の注目度): 39.54213483588498
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Voice assistants have sharply risen in popularity in recent years, but their
use has been limited mostly to simple applications like music, hands-free
search, or control of internet-of-things devices. What would it take for voice
assistants to guide people through more complex tasks? In our work, we study
the limitations of the dominant approach voice assistants take to complex task
guidance: reading aloud written instructions. Using recipes as an example, we
observe twelve participants cook at home with a state-of-the-art voice
assistant. We learn that the current approach leads to nine challenges,
including obscuring the bigger picture, overwhelming users with too much
information, and failing to communicate affordances. Instructions delivered by
a voice assistant are especially difficult because they cannot be skimmed as
easily as written instructions. Alexa in particular did not surface crucial
details to the user or answer questions well. We draw on our observations to
propose eight ways in which voice assistants can ``rewrite the script'' --
summarizing, signposting, splitting, elaborating, volunteering, reordering,
redistributing, and visualizing -- to transform written sources into forms that
are readily communicated through spoken conversation. We conclude with a vision
of how modern advancements in natural language processing can be leveraged for
intelligent agents to guide users effectively through complex tasks.
- Abstract(参考訳): 音声アシスタントは近年急速に普及しているが、その用途は音楽、ハンズフリー検索、インターネット・オブ・シングのデバイス制御といった単純なアプリケーションに限られている。
音声アシスタントがより複雑なタスクを通じて人々を導くのに何が必要か?
本研究では,音声アシスタントが複雑なタスク指導に採用する支配的アプローチの限界について検討する。
レシピを例として、12人の参加者が最新の音声アシスタントを使って家で料理するのを観察した。
私たちは、現在のアプローチが、全体像を隠蔽し、過剰な情報を持つユーザを圧倒し、余裕の伝達に失敗するなど、9つの課題につながっていることを学びました。
音声アシスタントによる指示は、手書きの指示ほど簡単にスキミングできないため、特に困難である。
特にalexaは、ユーザに重要な詳細を明かしたり、質問に答えたりはしなかった。
我々は、音声アシスタントが「スクリプトを書き直す」ことができる8つの方法 - 要約、サインポスト、分割、協力、ボランティア、再注文、再配布、可視化 -- を提案する。
最後に,自然言語処理の現代的進歩を,複雑なタスクを通じてユーザを効果的に導くインテリジェントエージェントとして活用する,というビジョンで締めくくった。
関連論文リスト
- Distilling an End-to-End Voice Assistant Without Instruction Training Data [53.524071162124464]
Distilled Voice Assistant (DiVA)は、質問応答、分類、翻訳を一般化する。
Qwen 2 Audioのような最先端のモデルと比較すると,DiVAはユーザの好みによく適合し,72%の勝利率を達成した。
論文 参考訳(メタデータ) (2024-10-03T17:04:48Z) - Follow-on Question Suggestion via Voice Hints for Voice Assistants [29.531005346608215]
我々は,ユーザがフォローアップ質問をできるように,コンパクトで自然な音声ヒントで質問を提案する新しい課題に取り組む。
質問リストから音声ヒントを生成するために,シーケンス・ツー・シーケンス・トランスフォーマを用いたベースラインとアプローチを提案する。
以上の結果から,提案する質問を和らげるナイーブなアプローチが,音声のヒントに乏しいことが示唆された。
論文 参考訳(メタデータ) (2023-10-25T22:22:18Z) - Referring to Screen Texts with Voice Assistants [5.62305568174015]
われわれの研究は、ユーザーが電話番号、住所、メールアドレス、URL、日付を電話画面で参照するための新しい体験を掘り下げている。
これは、複数の類似したテキストが画面に現れると、特に興味深いものになります。
直接ピクセルを消費するコストが高いため、このシステムはUIから抽出したテキストに依存するように設計されている。
論文 参考訳(メタデータ) (2023-06-10T22:43:16Z) - AudioGPT: Understanding and Generating Speech, Music, Sound, and Talking
Head [82.69233563811487]
大規模言語モデル(LLM)は、さまざまな領域やタスクにまたがって顕著な能力を示し、学習と認知の理解に挑戦しています。
本稿では,LLMを基本モデルで補完し,複雑な音声情報を処理するマルチモーダルAIシステムであるAudioGPTを提案する。
論文 参考訳(メタデータ) (2023-04-25T17:05:38Z) - MMSpeech: Multi-modal Multi-task Encoder-Decoder Pre-training for Speech
Recognition [75.12948999653338]
マンダリン自動音声認識(ASR)のためのマルチタスクエンコーダ-デコーダ事前学習フレームワーク(MMSpeech)を提案する。
我々は、音声とテキストデータを用いた5つの自己教師付きタスクを含むマルチタスク学習フレームワークを採用する。
AISHELL-1を用いた実験により,提案手法は従来手法と比較して40%以上の改善が得られた。
論文 参考訳(メタデータ) (2022-11-29T13:16:09Z) - DualVoice: Speech Interaction that Discriminates between Normal and
Whispered Voice Input [16.82591185507251]
発声コマンドと音声入力に必要なテキストを区別する簡単な方法はない。
記号やコマンドの入力も、それらがテキスト文字として誤解される可能性があるため、難しい。
本研究では,DualVoiceと呼ばれる音声対話手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T13:01:28Z) - A Review of Speaker Diarization: Recent Advances with Deep Learning [78.20151731627958]
スピーカーダイアリゼーションは、スピーカーのアイデンティティに対応するクラスでオーディオまたはビデオ録画をラベル付けするタスクです。
ディープラーニング技術の台頭に伴い、話者ダイアリゼーションのためのさらなる急速な進歩がなされている。
話者ダイアリゼーションシステムが音声認識アプリケーションとどのように統合されているかについて議論する。
論文 参考訳(メタデータ) (2021-01-24T01:28:05Z) - Challenges in Supporting Exploratory Search through Voice Assistants [9.861790101853863]
人々が音声アシスタントに慣れるにつれて、より複雑なタスクに対する期待が高まるかもしれない。
探索探索を支援する音声アシスタントの設計における4つの課題について概説する。
論文 参考訳(メタデータ) (2020-03-06T01:10:39Z) - VoiceCoach: Interactive Evidence-based Training for Voice Modulation
Skills in Public Speaking [55.366941476863644]
ピッチ,ボリューム,速度などの音声特性の変調は,公的な発話を成功させる上で極めて重要である。
音声変調スキルの効果的な訓練を容易にする対話型エビデンスに基づくアプローチであるVoiceCoachを提案する。
論文 参考訳(メタデータ) (2020-01-22T04:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。