論文の概要: Detecting In-Person Conversations in Noisy Real-World Environments with Smartwatch Audio and Motion Sensing
- arxiv url: http://arxiv.org/abs/2507.12002v1
- Date: Wed, 16 Jul 2025 07:57:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.288344
- Title: Detecting In-Person Conversations in Noisy Real-World Environments with Smartwatch Audio and Motion Sensing
- Title(参考訳): スマートウォッチ音声とモーションセンシングによる騒音の多い実環境における対人会話の検出
- Authors: Alice Zhang, Callihan Bertley, Dawei Liang, Edison Thomaz,
- Abstract要約: 社会的相互作用は、人間の行動、関係、社会を形成する上で重要な役割を果たす。
本研究では,人間同士の対話,対人会話の基本的側面を検出するための新しい計算手法を開発する。
- 参考スコア(独自算出の注目度): 1.5999407512883512
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social interactions play a crucial role in shaping human behavior, relationships, and societies. It encompasses various forms of communication, such as verbal conversation, non-verbal gestures, facial expressions, and body language. In this work, we develop a novel computational approach to detect a foundational aspect of human social interactions, in-person verbal conversations, by leveraging audio and inertial data captured with a commodity smartwatch in acoustically-challenging scenarios. To evaluate our approach, we conducted a lab study with 11 participants and a semi-naturalistic study with 24 participants. We analyzed machine learning and deep learning models with 3 different fusion methods, showing the advantages of fusing audio and inertial data to consider not only verbal cues but also non-verbal gestures in conversations. Furthermore, we perform a comprehensive set of evaluations across activities and sampling rates to demonstrate the benefits of multimodal sensing in specific contexts. Overall, our framework achieved 82.0$\pm$3.0% macro F1-score when detecting conversations in the lab and 77.2$\pm$1.8% in the semi-naturalistic setting.
- Abstract(参考訳): 社会的相互作用は、人間の行動、関係、社会を形成する上で重要な役割を果たす。
言語会話、非言語ジェスチャー、表情、ボディランゲージなど、様々な形態のコミュニケーションを包含する。
本研究では,コモディティ・スマートウォッチで収集した音声および慣性データを活用することで,人間の社会的相互作用,対人会話の基本的な側面を検出する新しい計算手法を開発する。
アプローチを評価するため,11名の被験者と24名の被験者を対象に実験室実験を行い,半自然主義的な研究を行った。
機械学習とディープラーニングモデルを3つの異なる融合手法で解析し、音声と慣性データを融合させることの利点を示し、会話における口語だけでなく、非言語的ジェスチャーも検討した。
さらに,特定の状況下でのマルチモーダルセンシングの利点を実証するために,アクティビティとサンプリング率の総合的な評価を行う。
実験室での会話を検知すると,本フレームワークは82.0$\pm$3.0%マクロF1スコア,半自然条件では77.2$\pm$1.8%を達成した。
関連論文リスト
- Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - Enabling Chatbots with Eyes and Ears: An Immersive Multimodal Conversation System for Dynamic Interactions [13.341099059080936]
本研究の目的は、人間とのより没入的な相互作用が可能な「目と耳」をチャットボットに装備することである。
本稿では,マルチモーダルな会話データセットであるマルチモーダルなマルチセッション・マルチパーティ・会話について紹介する。
我々のモデルはM3C$で訓練され、複数の話者との長期会話をシームレスに行う能力を示している。
論文 参考訳(メタデータ) (2025-05-31T06:50:51Z) - Multimodal Fusion with LLMs for Engagement Prediction in Natural Conversation [70.52558242336988]
我々は,不関心や混乱の兆候を検出することを目的として,言語的および非言語的手がかりを精査することにより,ダイアディック的相互作用における係り合いを予測することに焦点を当てた。
本研究では,カジュアルなダイアディック会話に携わる34人の参加者を対象に,各会話の最後に自己報告されたエンゲージメント評価を行うデータセットを収集する。
大規模言語モデル(LLMs)を用いた新たな融合戦略を導入し,複数行動モダリティをマルチモーダル・トランスクリプトに統合する。
論文 参考訳(メタデータ) (2024-09-13T18:28:12Z) - Characterizing Similarities and Divergences in Conversational Tones in Humans and LLMs by Sampling with People [20.95122915164433]
本稿では,会話のトーンと文を同時に抽出する反復的手法を提案する。
我々は,人間の会話音とGPT-4の関係を解釈可能な表現するために,我々のアプローチをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2024-06-06T17:26:00Z) - Interactive Natural Language Processing [67.87925315773924]
対話型自然言語処理(iNLP)は,NLP分野における新しいパラダイムとして登場した。
本稿では,iNLPの概念の統一的定義と枠組みを提案することから,iNLPに関する包括的調査を行う。
論文 参考訳(メタデータ) (2023-05-22T17:18:29Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Advancing an Interdisciplinary Science of Conversation: Insights from a
Large Multimodal Corpus of Human Speech [0.12038936091716987]
本報告では, 対話の学際的科学を推進し, 音声英語で記録された1,656件の多モーダルコーパスから得られた知見を報告する。
この700万語以上の単語と850時間のコーパスは、1TB以上の音声、ビデオ、そして文字起こしで、声、顔、意味表現のモーメント・ツー・モーメント(モーメント)を計測する。
本報告では, 多様な背景を持つ個人がコミュニケーションパターンをどう変化させ, 接続する方法を見出すかを示す, 定量的分析と定性的な各録音の質的レビューに基づいて, 総合的な混合手法のレポートを報告する。
論文 参考訳(メタデータ) (2022-03-01T18:50:33Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z) - Detecting depression in dyadic conversations with multimodal narratives
and visualizations [1.4824891788575418]
本稿では,人間による会話の分析を支援するシステムを開発する。
本研究では,マルチモーダル情報を広範囲に取り込み,個人の抑うつ状態を予測するための予測スコアを自動生成するシステムについて述べる。
論文 参考訳(メタデータ) (2020-01-13T10:47:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。