論文の概要: Towards Child-Inclusive Clinical Video Understanding for Autism Spectrum Disorder
- arxiv url: http://arxiv.org/abs/2409.13606v1
- Date: Fri, 20 Sep 2024 16:06:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:19:44.796846
- Title: Towards Child-Inclusive Clinical Video Understanding for Autism Spectrum Disorder
- Title(参考訳): 自閉症スペクトラム障害児の包括的ビデオ理解に向けて
- Authors: Aditya Kommineni, Digbalay Bose, Tiantian Feng, So Hyun Kim, Helen Tager-Flusberg, Somer Bishop, Catherine Lord, Sudarsana Kadiri, Shrikanth Narayanan,
- Abstract要約: 本研究では,3つのモダリティ(音声,ビデオ,テキスト)にまたがる基礎モデルを用いて,子どものインタラクション・セッションの分析を行う。
本研究は,行動認識と異常行動検出という,情報粒度の異なる2つのタスクにおいて,その性能を評価する。
- 参考スコア(独自算出の注目度): 27.788204861041553
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Clinical videos in the context of Autism Spectrum Disorder are often long-form interactions between children and caregivers/clinical professionals, encompassing complex verbal and non-verbal behaviors. Objective analyses of these videos could provide clinicians and researchers with nuanced insights into the behavior of children with Autism Spectrum Disorder. Manually coding these videos is a time-consuming task and requires a high level of domain expertise. Hence, the ability to capture these interactions computationally can augment the manual effort and enable supporting the diagnostic procedure. In this work, we investigate the use of foundation models across three modalities: speech, video, and text, to analyse child-focused interaction sessions. We propose a unified methodology to combine multiple modalities by using large language models as reasoning agents. We evaluate their performance on two tasks with different information granularity: activity recognition and abnormal behavior detection. We find that the proposed multimodal pipeline provides robustness to modality-specific limitations and improves performance on the clinical video analysis compared to unimodal settings.
- Abstract(参考訳): 自閉症スペクトラム障害(Autism Spectrum disorder)の文脈における臨床ビデオは、しばしば子供と介護者・臨床専門家の間の長い形式の相互作用であり、複雑な言語行動と非言語行動を含んでいる。
これらの動画を客観的に分析することで、自閉症スペクトラム障害児の行動に関する微妙な洞察を臨床医や研究者に提供することができる。
これらのビデオを手作業でコーディングするのは時間を要する作業であり、高いレベルのドメイン知識が必要です。
したがって、これらの相互作用を計算的に捉える能力は、手作業を強化し、診断手順をサポートすることができる。
本研究では,3つのモダリティ(音声,ビデオ,テキスト)にまたがる基礎モデルを用いて,子どものインタラクション・セッションの分析を行う。
本稿では,大規模言語モデルを推論エージェントとして利用することにより,複数のモーダルを結合する統一手法を提案する。
本研究は,行動認識と異常行動検出という,情報粒度の異なる2つのタスクにおいて,その性能を評価する。
提案したマルチモーダルパイプラインは,モダリティに特有の制約に対して堅牢性を提供し,単調な設定に比べて臨床ビデオ解析の性能を向上させる。
関連論文リスト
- Weakly-supervised Autism Severity Assessment in Long Videos [11.976885834298566]
自閉症スペクトラム障害(Autism Spectrum disorder、ASD)は、社会的コミュニケーションと相互作用の課題を特徴とする多様な神経生物学的条件のコレクションである。
長い、トリミングされていないビデオにおける非定型的な行動パターンは、ASDを持つ子供のバイオマーカーとして機能する。
論文 参考訳(メタデータ) (2024-07-12T10:45:25Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - Hear Me, See Me, Understand Me: Audio-Visual Autism Behavior Recognition [47.550391816383794]
本稿では,音声・視覚自閉症の行動認識の新たな課題について紹介する。
社会的行動認識は、AIによる自閉症スクリーニング研究において、これまで省略されてきた重要な側面である。
データセット、コード、事前トレーニングされたモデルをリリースします。
論文 参考訳(メタデータ) (2024-03-22T22:52:35Z) - Video-Based Autism Detection with Deep Learning [0.0]
感覚刺激に反応する子供の映像クリップを解析する深層学習モデルを開発した。
以上の結果から,本モデルは子どもの運動における重要な違いを効果的に一般化し,理解していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-26T17:45:00Z) - Show from Tell: Audio-Visual Modelling in Clinical Settings [58.88175583465277]
臨床環境でのオーディオ・ビジュアル・モデリングを考察し、人間の専門的アノテーションを使わずに医学的表現を学習するためのソリューションを提供する。
この目的のために, 単純かつ効果的なマルチモーダル自己教師型学習フレームワークを提案する。
提案手法は,音声のみを基準として,超音波画像中の解剖学的関心領域をローカライズすることができる。
論文 参考訳(メタデータ) (2023-10-25T08:55:48Z) - Language-Assisted Deep Learning for Autistic Behaviors Recognition [13.200025637384897]
本稿では,視覚に基づく問題行動認識システムにおいて,従来の手法よりも高い精度で性能を向上できることを示す。
問題行動の種類毎に「自由利用」言語記述を取り入れた2分岐マルチモーダルディープラーニングフレームワークを提案する。
実験結果から,言語指導を付加することで,自閉症の行動認識タスクに明らかなパフォーマンス向上がもたらされることが示された。
論文 参考訳(メタデータ) (2022-11-17T02:58:55Z) - Vision-Based Activity Recognition in Children with Autism-Related
Behaviors [15.915410623440874]
臨床医や親が子どもの行動を分析するのに役立つ地域型コンピュータビジョンシステムの効果を実証する。
データは、ビデオ中の対象の子供を検出し、背景雑音の影響を低減することで前処理される。
時間的畳み込みモデルの有効性から,ビデオフレームから動作特徴を抽出できる軽量モデルと従来モデルの両方を提案する。
論文 参考訳(メタデータ) (2022-08-08T15:12:27Z) - Co-Located Human-Human Interaction Analysis using Nonverbal Cues: A
Survey [71.43956423427397]
本研究の目的は,非言語的キューと計算手法を同定し,効果的な性能を実現することである。
この調査は、最も広い範囲の社会現象と相互作用設定を巻き込むことによって、相手と異なる。
もっともよく使われる非言語キュー、計算方法、相互作用環境、センシングアプローチは、それぞれマイクとカメラを備えた3,4人で構成される会話活動、ベクターマシンのサポート、ミーティングである。
論文 参考訳(メタデータ) (2022-07-20T13:37:57Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Early Autism Spectrum Disorders Diagnosis Using Eye-Tracking Technology [62.997667081978825]
資金不足、資格のある専門家の欠如、そして修正方法に対する信頼度の低いことが、AMDのリアルタイム診断に影響を及ぼす主要な問題である。
我々のチームは、子どもの視線活動の情報に基づいて、ALDの確率を予測するアルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-08-21T20:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。