論文の概要: Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
- arxiv url: http://arxiv.org/abs/2409.09340v1
- Date: Sat, 14 Sep 2024 07:03:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:19:23.537502
- Title: Egocentric Speaker Classification in Child-Adult Dyadic Interactions: From Sensing to Computational Modeling
- Title(参考訳): 児童・親子間対話における自我中心話者分類 : センシングから計算モデルへ
- Authors: Tiantian Feng, Anfeng Xu, Xuan Shi, Somer Bishop, Shrikanth Narayanan,
- Abstract要約: 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、社会的コミュニケーション、反復行動、感覚処理における課題を特徴とする神経発達状態である。
ASDにおける重要な研究領域は、治療中の子供の行動変化を評価することである。
これらの相互作用における子どもの行動を理解する基本的な側面は、自動音声理解である。
- 参考スコア(独自算出の注目度): 30.099739460287566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autism spectrum disorder (ASD) is a neurodevelopmental condition characterized by challenges in social communication, repetitive behavior, and sensory processing. One important research area in ASD is evaluating children's behavioral changes over time during treatment. The standard protocol with this objective is BOSCC, which involves dyadic interactions between a child and clinicians performing a pre-defined set of activities. A fundamental aspect of understanding children's behavior in these interactions is automatic speech understanding, particularly identifying who speaks and when. Conventional approaches in this area heavily rely on speech samples recorded from a spectator perspective, and there is limited research on egocentric speech modeling. In this study, we design an experiment to perform speech sampling in BOSCC interviews from an egocentric perspective using wearable sensors and explore pre-training Ego4D speech samples to enhance child-adult speaker classification in dyadic interactions. Our findings highlight the potential of egocentric speech collection and pre-training to improve speaker classification accuracy.
- Abstract(参考訳): 自閉症スペクトラム障害(Autism spectrum disorder、ASD)は、社会的コミュニケーション、反復行動、感覚処理における課題を特徴とする神経発達状態である。
ASDにおける重要な研究領域は、治療中の子供の行動変化を評価することである。
この目的の標準プロトコルはBOSCCであり、事前に定義された活動のセットを実行する子供と臨床医の間のダイアディックな相互作用を含む。
これらの相互作用における子供の行動を理解する基本的な側面は、自動音声理解であり、特に誰が話すか、いつ話すかを特定することである。
この領域における従来のアプローチは、オブザーバーの観点から記録された音声サンプルに大きく依存しており、エゴセントリックな音声モデリングの研究は限られている。
本研究では,ウェアラブルセンサを用いたBOSCCインタビューにおける音声サンプリング実験を設計し,学習前のEgo4D音声サンプルを探索し,子育て話者の対話性を高める。
本研究は, 話者分類精度を向上させるために, エゴセントリック音声収集と事前学習の可能性を強調した。
関連論文リスト
- Exploring Speech Pattern Disorders in Autism using Machine Learning [12.469348589699766]
本研究は, 被験者と患者との対話の分析を通じて, 独特の音声パターンを識別するための包括的アプローチを提案する。
我々は,40の音声関連特徴を抽出し,周波数,ゼロクロス速度,エネルギー,スペクトル特性,メル周波数ケプストラル係数(MFCC),バランスに分類した。
分類モデルはASDと非ASDを区別することを目的としており、精度は87.75%である。
論文 参考訳(メタデータ) (2024-05-03T02:59:15Z) - Parameter Selection for Analyzing Conversations with Autism Spectrum
Disorder [1.11612113079373]
本稿では,診断会話から抽出した音響・韻律・言語的特徴を分析し,自閉症スペクトラム障害(ASD)診断のモデル化手法を提案する。
以上の結果から,ASD児の会話データを詳細に分析し,診断と介入を支援することができた。
論文 参考訳(メタデータ) (2024-01-18T04:28:56Z) - Path Signature Representation of Patient-Clinician Interactions as a
Predictor for Neuropsychological Tests Outcomes in Children: A Proof of
Concept [40.737684553736166]
この研究は39のビデオ記録のデータセットを利用して、臨床医が認知評価テストを実施する広範囲なセッションを捉えた。
サンプルサイズと不均一な記録スタイルが限定されているにもかかわらず、解析は記録データの特徴としてパスシグネチャを抽出することに成功している。
以上の結果から,これらの特徴は,全セッション長の認知テストのスコアを予測できる有望な可能性を示唆した。
論文 参考訳(メタデータ) (2023-12-12T12:14:08Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Psychophysiological Arousal in Young Children Who Stutter: An
Interpretable AI Approach [6.507353572917133]
本研究は, 幼児期(CWS)児における, 子ども期(CWNS)児の生理的覚醒における第2・第2パターンの差異を効果的に把握し, 可視化するものである。
後者は言語的、認知的、コミュニケーション的要求を話者に導入する。
論文 参考訳(メタデータ) (2022-08-03T13:28:15Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - TalkTive: A Conversational Agent Using Backchannels to Engage Older
Adults in Neurocognitive Disorders Screening [51.97352212369947]
高齢者とヒトの認知的評価に関する246の会話を分析した。
反応性バックチャネルと活性性バックチャネルのカテゴリーを抽出した。
これは、バックチャネルのタイミングと形式の両方を予測することができるCAであるTalkTiveの開発に使用される。
論文 参考訳(メタデータ) (2022-02-16T17:55:34Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Disambiguating Affective Stimulus Associations for Robot Perception and
Dialogue [67.89143112645556]
知覚された聴覚刺激と感情表現の関連性を学ぶことができるNICOロボットを提供します。
NICOは、感情駆動対話システムの助けを借りて、個人と特定の刺激の両方でこれを行うことができる。
ロボットは、実際のHRIシナリオにおいて、被験者の聴覚刺激の楽しさを判断するために、この情報を利用することができる。
論文 参考訳(メタデータ) (2021-03-05T20:55:48Z) - Comparison of Speaker Role Recognition and Speaker Enrollment Protocol
for conversational Clinical Interviews [9.728371067160941]
エンドツーエンドのニューラルネットワークアーキテクチャをトレーニングし、各タスクに適応し、各アプローチを同じメトリクスで評価します。
結果は面接者の人口統計にも依存せず,その臨床的意義を浮き彫りにした。
論文 参考訳(メタデータ) (2020-10-30T09:07:37Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。