論文の概要: Prompt-Guided Turn-Taking Prediction
- arxiv url: http://arxiv.org/abs/2506.21191v1
- Date: Thu, 26 Jun 2025 12:49:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-27 19:53:10.081626
- Title: Prompt-Guided Turn-Taking Prediction
- Title(参考訳): Prompt-Guided Turn-Taking Prediction
- Authors: Koji Inoue, Mikey Elmers, Yahui Fu, Zi Haur Pang, Divesh Lala, Keiko Ochi, Tatsuya Kawahara,
- Abstract要約: ターンテイク予測モデルは、音声対話システムや会話ロボットにおいて不可欠な要素である。
近年のアプローチでは、トランスフォーマーに基づくアーキテクチャを活用して、音声活動の連続的およびリアルタイムな予測を行っている。
本稿では,テキストのプロンプトによってターンテイク予測を動的に制御できる新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 20.002659517035557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Turn-taking prediction models are essential components in spoken dialogue systems and conversational robots. Recent approaches leverage transformer-based architectures to predict speech activity continuously and in real-time. In this study, we propose a novel model that enables turn-taking prediction to be dynamically controlled via textual prompts. This approach allows intuitive and explicit control through instructions such as "faster" or "calmer" adapting dynamically to conversational partners and contexts. The proposed model builds upon a transformer-based voice activity projection (VAP) model, incorporating textual prompt embeddings into both channel-wise transformers and a cross-channel transformer. We evaluated the feasibility of our approach using over 950 hours of human-human spoken dialogue data. Since textual prompt data for the proposed approach was not available in existing datasets, we utilized a large language model (LLM) to generate synthetic prompt sentences. Experimental results demonstrated that the proposed model improved prediction accuracy and effectively varied turn-taking timing behaviors according to the textual prompts.
- Abstract(参考訳): ターンテイク予測モデルは、音声対話システムや会話ロボットにおいて不可欠な要素である。
近年のアプローチでは、トランスフォーマーに基づくアーキテクチャを活用して、音声活動の連続的およびリアルタイムな予測を行っている。
本研究では,テキストのプロンプトによってターンテイク予測を動的に制御できる新しいモデルを提案する。
このアプローチは、会話のパートナやコンテキストに動的に適応する"より速い"や"計算"といった命令を通じて、直感的で明示的な制御を可能にする。
提案モデルは,変換器を用いた音声活動予測(VAP)モデルに基づいて,チャネルワイドトランスとクロスチャネルトランスの両方にテキストプロンプトを組み込む。
950時間以上の音声対話データを用いて,本手法の有効性について検討した。
提案手法のテキストプロンプトデータは既存のデータセットでは利用できないため,大言語モデル(LLM)を用いて合成プロンプト文を生成する。
実験の結果,提案モデルにより予測精度が向上し,テキストのプロンプトに応じてターンテイクタイミングの挙動が効果的に変化することがわかった。
関連論文リスト
- A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [3.505838221203969]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。
応答を話者対応音声合成により合成音声に変換する。
マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文 参考訳(メタデータ) (2025-06-04T15:42:53Z) - NTPP: Generative Speech Language Modeling for Dual-Channel Spoken Dialogue via Next-Token-Pair Prediction [59.44357187878676]
話者に依存しない双方向音声対話学習を実現するために,新しい生成モデルパラダイムであるNext-Token-Pair Prediction(NTPP)を導入する。
提案手法であるNTPPは, ターンテイク予測, 応答コヒーレンス, 自然性の観点から, SLMの会話能力を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-01T12:01:40Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - TurnGPT: a Transformer-based Language Model for Predicting Turn-taking
in Spoken Dialog [2.2716975311837357]
音声対話におけるターンシフトを予測するためのトランスフォーマーベース言語モデルであるTurnGPTを導入する。
このモデルは、様々な文章と音声の対話データセットに基づいて訓練され、評価されている。
論文 参考訳(メタデータ) (2020-10-21T09:58:39Z) - An Empirical Investigation of Pre-Trained Transformer Language Models
for Open-Domain Dialogue Generation [23.343006562849126]
本稿では,オープンドメイン対話生成作業のための事前学習型トランスフォーマーに基づく自動回帰言語モデルについて実験的に検討する。
事前訓練と微調整の訓練パラダイムは、学習を行うために使用される。
実験は、Weibo、Douban、Reddit、DailyDialog、Persona-Chatといった典型的なシングルターンとマルチターンの対話コーパスで行われる。
論文 参考訳(メタデータ) (2020-03-09T15:20:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。