論文の概要: Advanced Gesture Recognition for Autism Spectrum Disorder Detection: Integrating YOLOv7, Video Augmentation, and VideoMAE for Naturalistic Video Analysis
- arxiv url: http://arxiv.org/abs/2410.09339v3
- Date: Sun, 17 Aug 2025 20:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:09.690026
- Title: Advanced Gesture Recognition for Autism Spectrum Disorder Detection: Integrating YOLOv7, Video Augmentation, and VideoMAE for Naturalistic Video Analysis
- Title(参考訳): 自閉症スペクトラム障害検出のための高度なジェスチャ認識:自然視ビデオ解析のためのYOLOv7、ビデオ拡張、ビデオMAEの統合
- Authors: Amit Kumar Singh, Vrijendra Singh,
- Abstract要約: 自発性スペクトラム障害(ASD)の診断のための重要な指標は、回転、頭部バンピング、腕羽ばたきなどの反復運動行動である。
本研究は, 自然・無制御環境下で撮影された映像を解析することにより, ASD を持つ子どもと発達した子ども(TD)を区別することに焦点を当てた。
我々は, YOLOv7に基づく検出, 広範ビデオ拡張, および高比マスキングと再構成戦略により空間的特徴と時間的特徴の両方を効率的にキャプチャする VideoMAE フレームワークを統合したパイプラインを採用する。
- 参考スコア(独自算出の注目度): 10.298059998417104
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning and contactless sensing technologies have significantly advanced the automated assessment of human behaviors in healthcare. In the context of autism spectrum disorder (ASD), repetitive motor behaviors such as spinning, head banging, and arm flapping are key indicators for diagnosis. This study focuses on distinguishing between children with ASD and typically developed (TD) peers by analyzing videos captured in natural, uncontrolled environments. Using the publicly available Self-Stimulatory Behavior Dataset (SSBD), we address the classification task as a binary problem, ASD vs. TD, based on stereotypical repetitive gestures. We adopt a pipeline integrating YOLOv7-based detection, extensive video augmentations, and the VideoMAE framework, which efficiently captures both spatial and temporal features through a high-ratio masking and reconstruction strategy. Our proposed approach achieves 95% accuracy, 0.93 precision, 0.94 recall, and 0.94 F1 score, surpassing the previous state-of-the-art by a significant margin. These results demonstrate the effectiveness of combining advanced object detection, robust data augmentation, and masked autoencoder-based video modeling for reliable ASD vs. TD classification in naturalistic settings.
- Abstract(参考訳): 深層学習と非接触センシング技術は、医療における人間の行動の自動評価を大幅に進歩させた。
自閉症スペクトラム障害(ASD)の文脈では、回転、頭部のバンピング、腕の羽ばたきといった反復的な運動行動が診断の重要な指標である。
本研究は, 自然, 制御されていない環境下で撮影された映像を解析することにより, ASD を持つ子どもと, 典型的に発達した(TD)ピアを区別することに焦点を当てた。
公開されている自己刺激行動データセット (SSBD) を用いて, 定型的反復動作に基づく二元問題 ASD 対 TD の分類課題に対処する。
我々は, YOLOv7に基づく検出, 広範ビデオ拡張, および高比マスキングと再構成戦略により空間的特徴と時間的特徴の両方を効率的にキャプチャする VideoMAE フレームワークを統合したパイプラインを採用する。
提案手法は95%の精度、0.93の精度、0.94のリコール、0.94のF1スコアを達成し、従来の最先端のスコアをかなり上回った。
これらの結果は,高度なオブジェクト検出,ロバストなデータ拡張,マスク付きオートエンコーダベースビデオモデリングを併用して,自然条件下でのASDとTDの分類に有効であることを示す。
関連論文リスト
- Pursuing Temporal-Consistent Video Virtual Try-On via Dynamic Pose Interaction [142.66410908560582]
Video Virtual try-onは、被験者に特定の衣服を装着したビデオフィギュアをシームレスに着ることを目的としている。
ビデオ仮想試行のための動的ポーズ相互作用を探索するために拡散モデルを活用するために,動的ポーズ相互作用拡散モデル(DPIDM)を提案する。
DPIDMは、時間的整合性を高めるために、連続フレーム間の時間的規則化された注意損失に乗じる。
論文 参考訳(メタデータ) (2025-05-22T17:52:34Z) - Ensemble Modeling of Multiple Physical Indicators to Dynamically Phenotype Autism Spectrum Disorder [3.6630139570443996]
自閉症スペクトラム障害(ASD)に関連する表現型マーカーを検出するためのコンピュータビジョンモデルをトレーニングするためのデータセットを提供する。
視線,頭位,顔のランドマークを入力として,LSTMを用いた個別モデルを訓練し,テストAUCは86%,67%,78%であった。
論文 参考訳(メタデータ) (2024-08-23T17:55:58Z) - Video-Based Autism Detection with Deep Learning [0.0]
感覚刺激に反応する子供の映像クリップを解析する深層学習モデルを開発した。
以上の結果から,本モデルは子どもの運動における重要な違いを効果的に一般化し,理解していることが明らかとなった。
論文 参考訳(メタデータ) (2024-02-26T17:45:00Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Language-Assisted Deep Learning for Autistic Behaviors Recognition [13.200025637384897]
本稿では,視覚に基づく問題行動認識システムにおいて,従来の手法よりも高い精度で性能を向上できることを示す。
問題行動の種類毎に「自由利用」言語記述を取り入れた2分岐マルチモーダルディープラーニングフレームワークを提案する。
実験結果から,言語指導を付加することで,自閉症の行動認識タスクに明らかなパフォーマンス向上がもたらされることが示された。
論文 参考訳(メタデータ) (2022-11-17T02:58:55Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Vision-Based Activity Recognition in Children with Autism-Related
Behaviors [15.915410623440874]
臨床医や親が子どもの行動を分析するのに役立つ地域型コンピュータビジョンシステムの効果を実証する。
データは、ビデオ中の対象の子供を検出し、背景雑音の影響を低減することで前処理される。
時間的畳み込みモデルの有効性から,ビデオフレームから動作特徴を抽出できる軽量モデルと従来モデルの両方を提案する。
論文 参考訳(メタデータ) (2022-08-08T15:12:27Z) - Context-Aware Sequence Alignment using 4D Skeletal Augmentation [67.05537307224525]
コンピュータビジョン、ロボティクス、混合現実の多くの応用において、ビデオにおける人間の行動の微粒化の時間的アライメントが重要である。
本稿では,アクションのシーケンスを整列するコンテキスト認識型自己教師型学習アーキテクチャを提案する。
特に、CASAは、人間の行動の空間的・時間的文脈を組み込むために、自己注意と相互注意のメカニズムを採用している。
論文 参考訳(メタデータ) (2022-04-26T10:59:29Z) - A Spatio-temporal Attention-based Model for Infant Movement Assessment
from Videos [44.71923220732036]
本研究では,短いクリップから抽出した人間のポーズを用いた新たなフィジット動作評価法を開発した。
人間のポーズは関節と手足の運動プロファイルのみをキャプチャし、無関係な外観の人工物は含まない。
実験の結果,提案手法はROC-AUCスコア81.87%を達成し,既存の競合手法よりも高い性能を示し,高い解釈性を示した。
論文 参考訳(メタデータ) (2021-05-20T14:31:54Z) - Continuous Emotion Recognition with Spatiotemporal Convolutional Neural
Networks [82.54695985117783]
In-theld でキャプチャした長いビデオシーケンスを用いて,持続的な感情認識のための最先端のディープラーニングアーキテクチャの適合性を検討する。
我々は,2D-CNNと長期記憶ユニットを組み合わせた畳み込みリカレントニューラルネットワークと,2D-CNNモデルの微調整時の重みを膨らませて構築した膨らませた3D-CNNモデルを開発した。
論文 参考訳(メタデータ) (2020-11-18T13:42:05Z) - Muti-view Mouse Social Behaviour Recognition with Deep Graphical Model [124.26611454540813]
マウスの社会的行動分析は神経変性疾患の治療効果を評価する貴重なツールである。
マウスの社会行動の豊かな記述を創出する可能性から、ネズミの観察にマルチビュービデオ記録を使用することは、ますます注目を集めている。
本稿では,ビュー固有のサブ構造とビュー共有サブ構造を協調的に学習する,新しい多視点潜在意識・動的識別モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T18:09:58Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。