論文の概要: Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior Recognition
- arxiv url: http://arxiv.org/abs/2406.02554v1
- Date: Fri, 22 Mar 2024 22:52:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 08:19:53.625997
- Title: Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior Recognition
- Title(参考訳): 耳を聴く, 理解する: 視覚的自閉症の行動認識
- Authors: Shijian Deng, Erin E. Kosloski, Siddhi Patel, Zeke A. Barnett, Yiyang Nan, Alexander Kaplan, Sisira Aarukapalli, William T. Doan, Matthew Wang, Harsh Singh, Pamela R. Rollins, Yapeng Tian,
- Abstract要約: 本稿では,音声・視覚自閉症の行動認識の新たな課題について紹介する。
社会的行動認識は、AIによる自閉症スクリーニング研究において、これまで省略されてきた重要な側面である。
データセット、コード、事前トレーニングされたモデルをリリースします。
- 参考スコア(独自算出の注目度): 47.550391816383794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this article, we introduce a novel problem of audio-visual autism behavior recognition, which includes social behavior recognition, an essential aspect previously omitted in AI-assisted autism screening research. We define the task at hand as one that is audio-visual autism behavior recognition, which uses audio and visual cues, including any speech present in the audio, to recognize autism-related behaviors. To facilitate this new research direction, we collected an audio-visual autism spectrum dataset (AV-ASD), currently the largest video dataset for autism screening using a behavioral approach. It covers an extensive range of autism-associated behaviors, including those related to social communication and interaction. To pave the way for further research on this new problem, we intensively explored leveraging foundation models and multimodal large language models across different modalities. Our experiments on the AV-ASD dataset demonstrate that integrating audio, visual, and speech modalities significantly enhances the performance in autism behavior recognition. Additionally, we explored the use of a post-hoc to ad-hoc pipeline in a multimodal large language model to investigate its potential to augment the model's explanatory capability during autism behavior recognition. We will release our dataset, code, and pre-trained models.
- Abstract(参考訳): 本稿では,従来のAI支援自閉症スクリーニング研究において欠落していた社会的行動認識を含む,音声・視覚自閉症の行動認識の新たな課題を紹介する。
この課題を,音声および視覚的手がかりを用いて,自閉症関連行動を認識する音声視覚自閉症行動認識として定義する。
この新たな研究の方向性を促進するために、行動的アプローチを用いて、現在最大の自閉症スクリーニング用ビデオデータセットであるAV-ASD(Audio-visual Autism spectrum dataset)を収集した。
それは、社会的コミュニケーションや相互作用に関連するものを含む、自閉症に関連する幅広い行動をカバーする。
新たな課題のさらなる研究の道を開くために,我々は,様々なモダリティにまたがる基礎モデルと多モーダルな大規模言語モデルの活用について,精力的に検討した。
AV-ASDデータセットを用いた実験により、音声、視覚、および音声のモダリティの統合により、自閉症行動認識の性能が著しく向上することが示された。
さらに,マルチモーダルな大規模言語モデルにおけるポストホックからアドホックパイプラインの利用について検討し,自閉症の行動認識におけるモデル説明能力を増強する可能性を検討した。
データセット、コード、事前トレーニングされたモデルをリリースします。
関連論文リスト
- Towards Child-Inclusive Clinical Video Understanding for Autism Spectrum Disorder [27.788204861041553]
本研究では,3つのモダリティ(音声,ビデオ,テキスト)にまたがる基礎モデルを用いて,子どものインタラクション・セッションの分析を行う。
本研究は,行動認識と異常行動検出という,情報粒度の異なる2つのタスクにおいて,その性能を評価する。
論文 参考訳(メタデータ) (2024-09-20T16:06:46Z) - Human Gesture and Gait Analysis for Autism Detection [23.77172199742202]
非定型歩行とジェスチャーパターンは自閉症の主要な行動特性である。
本稿では,自閉症児の身振りと歩行行動の分析を行った。
論文 参考訳(メタデータ) (2023-04-17T15:31:22Z) - Leveraging Pretrained Representations with Task-related Keywords for
Alzheimer's Disease Detection [69.53626024091076]
アルツハイマー病(AD)は高齢者に特に顕著である。
事前学習モデルの最近の進歩は、AD検出モデリングを低レベル特徴から高レベル表現にシフトさせる動機付けとなっている。
本稿では,高レベルの音響・言語的特徴から,より優れたAD関連手がかりを抽出する,いくつかの効率的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-14T16:03:28Z) - Language-Assisted Deep Learning for Autistic Behaviors Recognition [13.200025637384897]
本稿では,視覚に基づく問題行動認識システムにおいて,従来の手法よりも高い精度で性能を向上できることを示す。
問題行動の種類毎に「自由利用」言語記述を取り入れた2分岐マルチモーダルディープラーニングフレームワークを提案する。
実験結果から,言語指導を付加することで,自閉症の行動認識タスクに明らかなパフォーマンス向上がもたらされることが示された。
論文 参考訳(メタデータ) (2022-11-17T02:58:55Z) - Vision-Based Activity Recognition in Children with Autism-Related
Behaviors [15.915410623440874]
臨床医や親が子どもの行動を分析するのに役立つ地域型コンピュータビジョンシステムの効果を実証する。
データは、ビデオ中の対象の子供を検出し、背景雑音の影響を低減することで前処理される。
時間的畳み込みモデルの有効性から,ビデオフレームから動作特徴を抽出できる軽量モデルと従来モデルの両方を提案する。
論文 参考訳(メタデータ) (2022-08-08T15:12:27Z) - Classifying Autism from Crowdsourced Semi-Structured Speech Recordings:
A Machine Learning Approach [0.9945783208680666]
本研究では,家庭環境における自閉症・ニューロタイプ(NT)児の自己記録音声における自閉症検出のための機械学習手法について述べる。
まず、抽出音声の特徴を訓練したランダムフォレスト、スペクトルを訓練した第2の畳み込みニューラルネットワーク(CNN)、そして第3の、最先端のトランスフォーマーベースのASRモデルであるwav2vec 2.0の3つの方法を検討する。
論文 参考訳(メタデータ) (2022-01-04T01:31:02Z) - Audio-visual Representation Learning for Anomaly Events Detection in
Crowds [119.72951028190586]
本稿では,音声と視覚信号の同時モデリングにおけるマルチモーダル学習の活用を試みる。
監視シーンにおける合成音声視覚データセットであるSHADEデータセットについて実験を行った。
音声信号の導入は,異常事象の検出性能を効果的に向上し,他の最先端手法よりも優れることがわかった。
論文 参考訳(メタデータ) (2021-10-28T02:42:48Z) - CogAlign: Learning to Align Textual Neural Representations to Cognitive
Language Processing Signals [60.921888445317705]
自然言語処理モデルに認知言語処理信号を統合するためのCogAlignアプローチを提案する。
我々は、CogAlignが、パブリックデータセット上の最先端モデルよりも、複数の認知機能で大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-10T07:10:25Z) - Muti-view Mouse Social Behaviour Recognition with Deep Graphical Model [124.26611454540813]
マウスの社会的行動分析は神経変性疾患の治療効果を評価する貴重なツールである。
マウスの社会行動の豊かな記述を創出する可能性から、ネズミの観察にマルチビュービデオ記録を使用することは、ますます注目を集めている。
本稿では,ビュー固有のサブ構造とビュー共有サブ構造を協調的に学習する,新しい多視点潜在意識・動的識別モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T18:09:58Z) - 4D Spatio-Temporal Deep Learning with 4D fMRI Data for Autism Spectrum
Disorder Classification [69.62333053044712]
ASD分類のための4次元畳み込み深層学習手法を提案する。
F1スコアは0.71、F1スコアは0.65であるのに対し、我々は4Dニューラルネットワークと畳み込みリカレントモデルを採用する。
論文 参考訳(メタデータ) (2020-04-21T17:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。