論文の概要: Predicting Turn-Taking and Backchannel in Human-Machine Conversations Using Linguistic, Acoustic, and Visual Signals
- arxiv url: http://arxiv.org/abs/2505.12654v2
- Date: Tue, 20 May 2025 06:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 12:33:37.439483
- Title: Predicting Turn-Taking and Backchannel in Human-Machine Conversations Using Linguistic, Acoustic, and Visual Signals
- Title(参考訳): 言語的・音響的・視覚的信号を用いた人間と機械的会話におけるターンタイキングとバックチャネルの予測
- Authors: Yuxin Lin, Yinglin Zheng, Ming Zeng, Wangzheng Shi,
- Abstract要約: 210時間以上の人間会話ビデオの収集と注釈付けが可能な自動データ収集パイプラインを提案する。
約20Mフレームから1.5Mワードと対応するターンテイクおよびバックチャネルアノテーションを含むマルチモーダル・フェイス・ツー・フェイス・データセットを構築した。
本稿では,マルチモーダル信号からターンテイクおよびバックチャネル動作の確率を予測するエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.550158880305567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper addresses the gap in predicting turn-taking and backchannel actions in human-machine conversations using multi-modal signals (linguistic, acoustic, and visual). To overcome the limitation of existing datasets, we propose an automatic data collection pipeline that allows us to collect and annotate over 210 hours of human conversation videos. From this, we construct a Multi-Modal Face-to-Face (MM-F2F) human conversation dataset, including over 1.5M words and corresponding turn-taking and backchannel annotations from approximately 20M frames. Additionally, we present an end-to-end framework that predicts the probability of turn-taking and backchannel actions from multi-modal signals. The proposed model emphasizes the interrelation between modalities and supports any combination of text, audio, and video inputs, making it adaptable to a variety of realistic scenarios. Our experiments show that our approach achieves state-of-the-art performance on turn-taking and backchannel prediction tasks, achieving a 10% increase in F1-score on turn-taking and a 33% increase on backchannel prediction. Our dataset and code are publicly available online to ease of subsequent research.
- Abstract(参考訳): 本稿では,マルチモーダル信号(言語的,音響的,視覚的)を用いた人間と機械的会話におけるターンテイクおよびバックチャネル行動の予測におけるギャップについて述べる。
既存のデータセットの制限を克服するために、人間の会話ビデオ210時間以上を収集、注釈付けできる自動データ収集パイプラインを提案する。
そこで我々は,約20万フレームから150万ワード以上の単語と対応するターンテイクおよびバックチャネルアノテーションを含む,マルチモーダル・フェイス・トゥ・フェイス(MM-F2F)人間の会話データセットを構築した。
さらに,マルチモーダル信号からターンテイクおよびバックチャネル動作の確率を予測するエンドツーエンドフレームワークを提案する。
提案モデルは、モダリティ間の相互関係を強調し、テキスト、オーディオ、ビデオの入力の組み合わせをサポートし、様々な現実的なシナリオに適応できるようにする。
提案手法は, ターンテイクおよびバックチャネル予測タスクにおける最先端性能を実現し, ターンテイクにおけるF1スコアの10%増加, バックチャネル予測における33%向上を実現している。
私たちのデータセットとコードは、その後の研究を簡単にするために、オンラインで公開されています。
関連論文リスト
- Talking Turns: Benchmarking Audio Foundation Models on Turn-Taking Dynamics [54.03209351287654]
本稿では,音声対話システムのターンテイク能力を評価するための新しい評価プロトコルを提案する。
本稿では,既存の音声対話システムをターンテイクイベントの実行能力に基づいて評価する,初めての包括的ユーザスタディを提案する。
我々は、高度な対話型AIシステムの開発を促進するために、評価プラットフォームをオープンソース化する。
論文 参考訳(メタデータ) (2025-03-03T04:46:04Z) - Nexus-O: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [50.23246260804145]
業界レベルのtextbfomni-perceptive および-interactive モデルである textbfNexus-O を導入し,音声,画像,ビデオ,テキストデータを効率的に処理する。
まず、モデルを効率的に設計し、トレーニングして、複数のモダリティにわたるトリモーダルアライメント、理解、推論機能を実現するにはどうすればよいか?
第二に、現実のシナリオにおける信頼性の高いパフォーマンスと適用性を保証するために、トリモーダルモデルの堅牢性を評価するために、どのようなアプローチが実装できるのか?
第3に,高品質で現実的なシナリオをキュレートし,得るための戦略
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Squeeze-Excitation Convolutional Recurrent Neural Networks for
Audio-Visual Scene Classification [4.191965713559235]
本稿では,自動シーン分類のためのマルチモーダルモデルを提案する。
聴覚情報と視覚情報を同時に利用する。
予測性能とシステムの複雑さとの間には、優れたトレードオフがあることが示されている。
論文 参考訳(メタデータ) (2021-07-28T06:10:10Z) - Speech Prediction in Silent Videos using Variational Autoencoders [29.423462898526605]
我々はサイレントビデオで音声を生成するモデルを提案する。
提案モデルは、繰り返しニューラルネットワークと変分深部生成モデルを組み合わせて、聴覚の条件分布を学習する。
標準ベンチマークに基づくGRIDデータセット上で,本モデルの性能を示す。
論文 参考訳(メタデータ) (2020-11-14T17:09:03Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。