論文の概要: When can I Speak? Predicting initiation points for spoken dialogue
agents
- arxiv url: http://arxiv.org/abs/2208.03812v1
- Date: Sun, 7 Aug 2022 20:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 13:44:38.541461
- Title: When can I Speak? Predicting initiation points for spoken dialogue
agents
- Title(参考訳): いつ話せますか。
音声対話エージェントの開始点の予測
- Authors: Siyan Li, Ashwin Paranjape, Christopher D. Manning
- Abstract要約: 事前学習した音声表現モデルから韻律的特徴を用いたリードタイムの開始を予測した。
われわれは、Switchboard Corpusのモデルをトレーニングし、評価し、私たちの手法が700ミリ秒の沈黙を待つ一般的なアプローチを大きく上回っていることを発見した。
- 参考スコア(独自算出の注目度): 41.64197357473437
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current spoken dialogue systems initiate their turns after a long period of
silence (700-1000ms), which leads to little real-time feedback, sluggish
responses, and an overall stilted conversational flow. Humans typically respond
within 200ms and successfully predicting initiation points in advance would
allow spoken dialogue agents to do the same. In this work, we predict the
lead-time to initiation using prosodic features from a pre-trained speech
representation model (wav2vec 1.0) operating on user audio and word features
from a pre-trained language model (GPT-2) operating on incremental
transcriptions. To evaluate errors, we propose two metrics w.r.t. predicted and
true lead times. We train and evaluate the models on the Switchboard Corpus and
find that our method outperforms features from prior work on both metrics and
vastly outperforms the common approach of waiting for 700ms of silence.
- Abstract(参考訳): 現在の音声対話システムは、長時間の沈黙(700-1000ms)の後、旋回を開始する。
人間は通常200ミリ秒以内で応答し、事前に開始点を予測することに成功すれば、音声対話エージェントも同じことができる。
本稿では,ユーザの音声・単語特徴を扱う事前学習音声表現モデル(wav2vec 1.0)から,インクリメンタルな書き起こしを操作する事前学習言語モデル(gpt-2)から,韻律的特徴を用いて開始までのリードタイムを予測する。
誤差を評価するために、w.r.t.予測と真のリードタイムの2つの指標を提案する。
スイッチボードコーパス上でモデルをトレーニングし,評価した結果,両メトリクスの先行作業による特徴を上回り,700ミリ秒の沈黙待ちの一般的なアプローチを大きく上回っていることがわかった。
関連論文リスト
- Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - IntrinsicVoice: Empowering LLMs with Intrinsic Real-time Voice Interaction Abilities [55.11130688075417]
IntrinsicVoicは、本質的なリアルタイム音声対話機能を備えたLLMである。
我々の新規アーキテクチャであるGroupFormerは、テキストシーケンスに匹敵する長さまで音声シーケンスを削減できる。
我々は,500k近い音声対音声対話を含む,メソッド500kというマルチターン音声対音声対話データセットを構築した。
論文 参考訳(メタデータ) (2024-10-09T05:04:31Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Duration-aware pause insertion using pre-trained language model for
multi-speaker text-to-speech [40.65850332919397]
事前訓練された言語モデルに基づいて,より強力な停止挿入フレームワークを提案する。
提案手法では,大規模テキストコーパス上で事前学習した変換器(BERT)の双方向エンコーダ表現を用いる。
また、より自然なマルチスピーカTSに対して、持続時間対応の停止挿入を利用する。
論文 参考訳(メタデータ) (2023-02-27T10:40:41Z) - Turn-Taking Prediction for Natural Conversational Speech [40.189938418201656]
一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
論文 参考訳(メタデータ) (2022-08-29T01:09:23Z) - CloneBot: Personalized Dialogue-Response Predictions [0.0]
プロジェクトのタスクは、話者id、チャット履歴、発話クエリが与えられた場合に、会話中の応答発話を予測できるモデルを作成することだった。
モデルは各話者にパーソナライズされる。
このタスクは、人間のような方法で会話する音声ボットをライブ会話で構築するのに有用なツールである。
論文 参考訳(メタデータ) (2021-03-31T01:15:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。