論文の概要: Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction
- arxiv url: http://arxiv.org/abs/2505.21043v1
- Date: Tue, 27 May 2025 11:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.605334
- Title: Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction
- Title(参考訳): 視覚クイズによる2人数インタラクションの予測ターンタイキング
- Authors: Sam O'Connor Russell, Naomi Harte,
- Abstract要約: 予測的ターンテイクモデル(PTTM)は、自然主義的な人間とロボットの相互作用を促進するが、ほとんどは音声にのみ依存する。
本稿では,マルチモーダルPTTMであるMM-VAPを紹介する。
ビデオ会議のインタラクションにおいて、最先端のオーディオオンリー(ホールド/シフト予測精度が84%に対して79%)を上回っていることが判明した。
- 参考スコア(独自算出の注目度): 7.412918099791407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Turn-taking is richly multimodal. Predictive turn-taking models (PTTMs) facilitate naturalistic human-robot interaction, yet most rely solely on speech. We introduce MM-VAP, a multimodal PTTM which combines speech with visual cues including facial expression, head pose and gaze. We find that it outperforms the state-of-the-art audio-only in videoconferencing interactions (84% vs. 79% hold/shift prediction accuracy). Unlike prior work which aggregates all holds and shifts, we group by duration of silence between turns. This reveals that through the inclusion of visual features, MM-VAP outperforms a state-of-the-art audio-only turn-taking model across all durations of speaker transitions. We conduct a detailed ablation study, which reveals that facial expression features contribute the most to model performance. Thus, our working hypothesis is that when interlocutors can see one another, visual cues are vital for turn-taking and must therefore be included for accurate turn-taking prediction. We additionally validate the suitability of automatic speech alignment for PTTM training using telephone speech. This work represents the first comprehensive analysis of multimodal PTTMs. We discuss implications for future work and make all code publicly available.
- Abstract(参考訳): ターンテイクは多機能である。
予測的ターンテイクモデル(PTTM)は、自然主義的な人間とロボットの相互作用を促進するが、ほとんどは音声にのみ依存する。
本稿では,マルチモーダルPTTMであるMM-VAPを紹介する。
その結果、ビデオ会議のインタラクションにおいて、最先端のオーディオのみよりも優れています(84%対79%のホールド/シフト予測精度)。
すべての保持とシフトを集約する以前の作業とは異なり、ターン間の沈黙の期間によってグループ化します。
このことは、視覚的特徴を含めることで、MM-VAPが話者遷移のすべての期間にわたって、最先端のオーディオのみのターンテイクモデルより優れていることを示している。
本研究は,表情特徴がモデル性能に最も寄与していることを明らかにするための詳細なアブレーション研究である。
このように、我々の作業仮説は、インターロカターがお互いを見ることができれば、視覚的手がかりはターンテイクに不可欠であり、従って正確なターンテイク予測のために含まなければならない、というものである。
また,電話音声を用いたPTTM訓練における音声自動アライメントの有効性についても検証した。
この研究は、マルチモーダルPTTMの最初の包括的解析である。
今後の作業の意味を議論し、すべてのコードを公開します。
関連論文リスト
- SViQA: A Unified Speech-Vision Multimodal Model for Textless Visual Question Answering [0.0]
テキストの書き起こしなしに音声質問を処理する統合音声ビジョンモデルであるSViQAを紹介する。
LLaVAアーキテクチャに基づいて、我々のフレームワークは2つの重要なイノベーションを通じて聴覚と視覚のモダリティを橋渡しします。
SBVQAベンチマークの大規模な実験結果は、提案したSViQAの最先端性能を実証している。
論文 参考訳(メタデータ) (2025-04-01T07:15:32Z) - Vision-Speech Models: Teaching Speech Models to Converse about Images [67.62394024470528]
我々は、MoshiVisを導入し、最近の対話音声LLM、Moshiを軽量適応モジュールを通して視覚的に入力する。
追加の動的ゲーティング機構により、モデルが視覚的な入力と無関係な会話トピックをより簡単に切り替えることができる。
音声とテキストの両方のプロンプトを用いて下流視覚理解タスクのモデルを評価し,MoshiVisとのインタラクションの質的なサンプルを報告する。
論文 参考訳(メタデータ) (2025-03-19T18:40:45Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - VATLM: Visual-Audio-Text Pre-Training with Unified Masked Prediction for
Speech Representation Learning [119.49605266839053]
VATLM (Visual-Audio-Text Language Model) を用いたクロスモーダル表現学習フレームワークを提案する。
提案したVATLMは、モダリティに依存しない情報をモデル化するために、統一されたバックボーンネットワークを使用する。
これら3つのモダリティを1つの共有セマンティック空間に統合するために、VATLMは統一トークンのマスク付き予測タスクで最適化される。
論文 参考訳(メタデータ) (2022-11-21T09:10:10Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - MAAS: Multi-modal Assignation for Active Speaker Detection [59.08836580733918]
本稿では,本問題のマルチモーダル性に直接対処するアクティブな話者検出手法を提案する。
実験では,単一フレームで構築した小さなグラフデータ構造により,瞬時に発生する視聴覚課題を近似できることを示した。
論文 参考訳(メタデータ) (2021-01-11T02:57:25Z) - Let's Face It: Probabilistic Multi-modal Interlocutor-aware Generation
of Facial Gestures in Dyadic Settings [11.741529272872219]
より自然な対面インタラクションを可能にするために、会話エージェントは、彼らの振る舞いをインターロケータに適応させる必要がある。
既存のジェスチャ生成システムの多くは、非言語的振る舞いを合成する際に、インターロカタからのマルチモーダルキューを使用しない。
本稿では,対話における顔のジェスチャーを対話的に合成する確率的手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T14:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。