論文の概要: Triadic Multi-party Voice Activity Projection for Turn-taking in Spoken Dialogue Systems
- arxiv url: http://arxiv.org/abs/2507.07518v1
- Date: Thu, 10 Jul 2025 08:06:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.316134
- Title: Triadic Multi-party Voice Activity Projection for Turn-taking in Spoken Dialogue Systems
- Title(参考訳): 音声対話システムにおけるターンテイクのための3段階多人数音声活動予測
- Authors: Mikey Elmers, Koji Inoue, Divesh Lala, Tatsuya Kawahara,
- Abstract要約: 本研究は, 音声活動予測(VAP)を適用して, 三進的多人数シナリオにおける今後のターンテイクを予測することに焦点を当てる。
参加者がさまざまな話題を議論する日本三進的データセットを用いて複数のモデルを訓練した。
その結果,三進的会話を訓練したVAPは,すべてのモデルにおいてベースラインを上回り,会話の種類が精度に影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 22.249086790195634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Turn-taking is a fundamental component of spoken dialogue, however conventional studies mostly involve dyadic settings. This work focuses on applying voice activity projection (VAP) to predict upcoming turn-taking in triadic multi-party scenarios. The goal of VAP models is to predict the future voice activity for each speaker utilizing only acoustic data. This is the first study to extend VAP into triadic conversation. We trained multiple models on a Japanese triadic dataset where participants discussed a variety of topics. We found that the VAP trained on triadic conversation outperformed the baseline for all models but that the type of conversation affected the accuracy. This study establishes that VAP can be used for turn-taking in triadic dialogue scenarios. Future work will incorporate this triadic VAP turn-taking model into spoken dialogue systems.
- Abstract(参考訳): ターンテイクは音声対話の基本的な構成要素であるが、従来の研究はダイアディックな設定が主である。
本研究は, 音声活動予測(VAP)を適用して, 三進的多人数シナリオにおける今後のターンテイクを予測することに焦点を当てる。
VAPモデルの目的は、音響データのみを利用して各話者の将来の音声活動を予測することである。
これは、VAPを3進的会話に拡張した最初の研究である。
参加者がさまざまな話題を議論する日本三進的データセットを用いて複数のモデルを訓練した。
その結果,三進的会話を訓練したVAPは,すべてのモデルにおいてベースラインを上回り,会話の種類が精度に影響を及ぼすことがわかった。
本研究は,三進的対話シナリオにおいて,VAPがターンテイクに使用できることを示す。
今後の研究は、この三進的VAPターンテイクモデルを音声対話システムに組み込む予定である。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Multilingual Turn-taking Prediction Using Voice Activity Projection [25.094622033971643]
本稿では,音声対話における音声活動予測モデルである音声活動予測(VAP)の多言語データへの適用について検討する。
その結果, ある言語で訓練された単言語VAPモデルでは, 他の言語に適用してもよい予測が得られないことが示唆された。
3つの言語すべてでトレーニングされた多言語モデルは、すべての言語にわたるモノリンガルモデルと同等の予測性能を示す。
論文 参考訳(メタデータ) (2024-03-11T07:50:29Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [70.08842857515141]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - A Tailored Pre-Training Model for Task-Oriented Dialog Generation [60.05269529832447]
タスク指向対話システムのための事前訓練された役割交替言語モデル(PRAL)を提案する。
13個の既存のデータセットをクリーニングすることでタスク指向の対話事前学習データセットを導入する。
その結果,PRALは最先端の手法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2020-04-24T09:25:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。