論文の概要: Exploiting temporal information to detect conversational groups in videos and predict the next speaker
- arxiv url: http://arxiv.org/abs/2408.16380v1
- Date: Thu, 29 Aug 2024 09:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 14:22:45.091767
- Title: Exploiting temporal information to detect conversational groups in videos and predict the next speaker
- Title(参考訳): ビデオ中の会話グループの検出と次の話者の予測のための時間情報公開
- Authors: Lucrezia Tosato, Victor Fortier, Isabelle Bloch, Catherine Pelachaud,
- Abstract要約: 本稿では,ビデオシーケンス中のF生成を検出し,グループ会話における次の話者を予測することを目的とする。
私たちは、グループに属する人のエンゲージメントレベルを測定することに依存しています。
MatchNMingleデータセットの実験では、グループ検出では85%正の正が、次の話者の予測では98%の精度が得られた。
- 参考スコア(独自算出の注目度): 2.7981106665946944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Studies in human human interaction have introduced the concept of F formation to describe the spatial arrangement of participants during social interactions. This paper has two objectives. It aims at detecting F formations in video sequences and predicting the next speaker in a group conversation. The proposed approach exploits time information and human multimodal signals in video sequences. In particular, we rely on measuring the engagement level of people as a feature of group belonging. Our approach makes use of a recursive neural network, the Long Short Term Memory (LSTM), to predict who will take the speaker's turn in a conversation group. Experiments on the MatchNMingle dataset led to 85% true positives in group detection and 98% accuracy in predicting the next speaker.
- Abstract(参考訳): ヒトの相互作用の研究は、社会的相互作用における参加者の空間配置を記述するためにF形成の概念を導入した。
本論文には2つの目的がある。
ビデオシーケンス中のF生成を検出し、グループ会話における次の話者を予測することを目的としている。
提案手法はビデオシーケンス中の時間情報と人間のマルチモーダル信号を利用する。
特に、グループに属する人々のエンゲージメントレベルを測定することに頼っています。
我々のアプローチでは、会話グループで誰が話者のターンを取るかを予測するために、再帰的ニューラルネットワークであるLong Short Term Memory(LSTM)を使用している。
MatchNMingleデータセットの実験では、グループ検出において85%の正が、次の話者を予測する上で98%の精度が得られた。
関連論文リスト
- Towards Open-Vocabulary Audio-Visual Event Localization [59.23161248808759]
本稿では,オープン語彙音声・視覚イベントのローカライズ問題を紹介する。
この問題は、音声・視覚イベントのローカライズと、推測時に見つからないデータの両方の明確なカテゴリの予測を必要とする。
OV-AVEBenchデータセットを提案する。
論文 参考訳(メタデータ) (2024-11-18T04:35:20Z) - Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。
本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T11:57:56Z) - Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Introducing MeMo: A Multimodal Dataset for Memory Modelling in Multiparty Conversations [1.8896253910986929]
MeMo Corpusは参加者のメモリ保持レポートに注釈を付けた最初のデータセットである。
検証された振る舞いと知覚の計測、オーディオ、ビデオ、マルチモーダルアノテーションを統合する。
本稿では,知的システム開発のための対話型メモリモデリングにおける今後の研究の道を開くことを目的とする。
論文 参考訳(メタデータ) (2024-09-07T16:09:36Z) - Target conversation extraction: Source separation using turn-taking dynamics [23.189364779538757]
本稿では,ターゲット会話抽出の新たな課題について紹介する。その目的は,参加者の1人の話者埋め込みに基づいて,対象会話の音声を抽出することである。
ニューラルネットワークを用いて、英語とマンダリンの会話データセットに対する我々のアプローチの有効性を示す。
干渉話者の存在下では,2対4対4対4対4対4対4対4対7.92対2対1対1対1対1対1対1対8.19対1対1対1対4対4対4対4対2対2対2対2対2対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対1対2対2対2対2対4対1対2対2対2対2対2対2対2対2対2対1対1対1対1対1対1対1対1
論文 参考訳(メタデータ) (2024-07-15T22:55:27Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Conversation Group Detection With Spatio-Temporal Context [11.288403109735544]
本稿では,カクテルパーティーやネットワークイベントなどの社会的シナリオにおける会話グループ検出手法を提案する。
環境の空間的文脈を活用することの恩恵を受けることができる学習問題として,会話グループの検出を仮定する。
これはLSTMに基づく動的深層学習モデルから成り、連続的なペアワイド親和性値を予測するアプローチである。
論文 参考訳(メタデータ) (2022-06-02T08:05:02Z) - Unsupervised Conversation Disentanglement through Co-Training [30.304609312675186]
人間のアノテーションを参考にすることなく、会話の絡み合いモデルを訓練する。
提案手法は,2つのニューラルネットワークからなるディープコトレーニングアルゴリズムに基づいて構築される。
メッセージペア分類器では、信頼度の高いメッセージペアを検索することで、トレーニングデータを強化します。
論文 参考訳(メタデータ) (2021-09-07T17:05:18Z) - Detecting Speaker Personas from Conversational Texts [52.4557098875992]
本研究では,平易な会話テキストに基づく話者ペルソナの検出を目的とした,話者ペルソナ検出(SPD)という新しいタスクについて検討する。
我々は、Persona Match on Persona-Chat (PMPC)と呼ばれるSPDのためのデータセットを構築している。
本稿では,複数のベースラインモデルを評価し,この課題に対する発話対注目(U2P)マッチングネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-03T06:14:38Z) - Self-supervised Text-independent Speaker Verification using Prototypical
Momentum Contrastive Learning [58.14807331265752]
モーメントの対比学習によって話者埋め込みがより良く学習できることを示す。
自己監視フレームワークを、データのごく一部しかラベル付けされない半監視シナリオに一般化します。
論文 参考訳(メタデータ) (2020-12-13T23:23:39Z) - Active Speakers in Context [88.22935329360618]
能動話者検出のための現在の手法は、単一話者からの短期音声視覚情報をモデル化することに焦点を当てている。
本稿では,複数話者間の関係を長期にわたってモデル化する新しい表現であるActive Speaker Contextを紹介する。
実験の結果,構造的特徴アンサンブルはすでにアクティブな話者検出性能の恩恵を受けていることがわかった。
論文 参考訳(メタデータ) (2020-05-20T01:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。