論文の概要: SMART: Scene-motion-aware human action recognition framework for mental disorder group
- arxiv url: http://arxiv.org/abs/2406.04649v1
- Date: Fri, 7 Jun 2024 05:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 15:29:23.632328
- Title: SMART: Scene-motion-aware human action recognition framework for mental disorder group
- Title(参考訳): SMART(Scene-motion-aware human action recognition framework for mental disorder group)
- Authors: Zengyuan Lai, Jiarui Yang, Songpengcheng Xia, Qi Wu, Zhen Sun, Wenxian Yu, Ling Pei,
- Abstract要約: 本稿では、精神障害グループで頻繁に発生する異常行動を含む視覚に基づくヒューマンアクション認識データセットを構築することを提案する。
次に,Scene-Motion-Aware Action RecognitionフレームワークであるSMARTを紹介した。
提案手法の有効性を自己収集したHARデータセット(HAD)で検証し,未確認の被写体とシーンにおいて94.9%,93.1%の精度を達成し,最先端のアプローチを6.5%,13.2%向上させた。
- 参考スコア(独自算出の注目度): 16.60713558596286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Patients with mental disorders often exhibit risky abnormal actions, such as climbing walls or hitting windows, necessitating intelligent video behavior monitoring for smart healthcare with the rising Internet of Things (IoT) technology. However, the development of vision-based Human Action Recognition (HAR) for these actions is hindered by the lack of specialized algorithms and datasets. In this paper, we innovatively propose to build a vision-based HAR dataset including abnormal actions often occurring in the mental disorder group and then introduce a novel Scene-Motion-aware Action Recognition Technology framework, named SMART, consisting of two technical modules. First, we propose a scene perception module to extract human motion trajectory and human-scene interaction features, which introduces additional scene information for a supplementary semantic representation of the above actions. Second, the multi-stage fusion module fuses the skeleton motion, motion trajectory, and human-scene interaction features, enhancing the semantic association between the skeleton motion and the above supplementary representation, thus generating a comprehensive representation with both human motion and scene information. The effectiveness of our proposed method has been validated on our self-collected HAR dataset (MentalHAD), achieving 94.9% and 93.1% accuracy in un-seen subjects and scenes and outperforming state-of-the-art approaches by 6.5% and 13.2%, respectively. The demonstrated subject- and scene- generalizability makes it possible for SMART's migration to practical deployment in smart healthcare systems for mental disorder patients in medical settings. The code and dataset will be released publicly for further research: https://github.com/Inowlzy/SMART.git.
- Abstract(参考訳): 精神疾患を持つ患者は、壁に登ったり、窓を打ったり、スマートヘルスケアのためのインテリジェントなビデオビヘイビア監視をIoT(Internet of Things)技術で必要としたりといった、危険な異常な行動を示すことが多い。
しかし、これらの行動に対する視覚に基づくヒューマンアクション認識(HAR)の開発は、特殊なアルゴリズムやデータセットの欠如によって妨げられている。
本稿では,精神障害グループで頻繁に発生する異常行動を含む視覚に基づくHARデータセットの構築を革新的に提案する。
まず、人間の動きの軌跡と人間とシーンの相互作用の特徴を抽出するシーン認識モジュールを提案し、上記の動作の補足的意味表現に付加的なシーン情報を導入する。
第2に、多段融合モジュールは、骨格運動、運動軌跡及びヒトとシーンの相互作用特徴を融合させ、骨格運動と上記補足表現とのセマンティックな関連性を高め、ヒトの動きとシーン情報の両方を包括的に表現する。
提案手法の有効性を自作HARデータセット(MentalHAD)で検証し,未確認の被験者と場面で94.9%, 93.1%, 最先端のアプローチでは6.5%, 13.2%の精度で評価した。
実演された主題とシーンの一般化性は、SMARTが医療環境における精神疾患患者のためのスマートヘルスケアシステムへの実践的な展開に移行することを可能にする。
コードとデータセットは、さらなる研究のために公開される。 https://github.com/Inowlzy/SMART.git。
関連論文リスト
- Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Position and Orientation-Aware One-Shot Learning for Medical Action
Recognition from Signal Data [9.757753196253532]
信号データから医療行動認識のための位置認識・向き認識型ワンショット学習フレームワークを提案する。
提案するフレームワークは,信号レベル画像生成(SIG),クロスアテンション(CsA),動的時間ワープ(DTW)モジュールの2段階からなる。
論文 参考訳(メタデータ) (2023-09-27T13:08:15Z) - Joint fMRI Decoding and Encoding with Latent Embedding Alignment [77.66508125297754]
我々はfMRIデコーディングと符号化の両方に対処する統合フレームワークを導入する。
本モデルでは、fMRI信号から視覚刺激を同時に回復し、統合された枠組み内の画像から脳活動を予測する。
論文 参考訳(メタデータ) (2023-03-26T14:14:58Z) - LABRAD-OR: Lightweight Memory Scene Graphs for Accurate Bimodal
Reasoning in Dynamic Operating Rooms [39.11134330259464]
手術室(OR)の全体モデリングは難しいが必須課題である。
本稿では,過去の時間ステップのシーングラフが時間的表現として機能し,現在の予測を導くメモリシーングラフを紹介する。
我々は、私たちの軽量メモリシーングラフの時間情報をポイントクラウドや画像からの視覚情報とインテリジェントに融合するエンドツーエンドアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-23T14:26:16Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - 4D-OR: Semantic Scene Graphs for OR Domain Modeling [72.1320671045942]
本稿では,手術シーンを記述・要約するために意味シーングラフ(SSG)を提案する。
シーングラフのノードは、医療スタッフ、患者、医療機器など、部屋内のさまざまなアクターやオブジェクトを表す。
人工膝置換手術を10回行った4D-ORデータセットを作成した。
論文 参考訳(メタデータ) (2022-03-22T17:59:45Z) - Semantic Labeling of Human Action For Visually Impaired And Blind People
Scene Interaction [1.52292571922932]
本研究の目的は視覚障害者のための触覚装置の開発に貢献することである。
我々はKinectが提供するスケルトン情報を用いて,多スケールグラフ畳み込み(MS-G3D)モデルを用いて,動作の認識を行う。
認識されたアクションは意味的にラベル付けされ、タッチ感覚によって知覚可能な出力デバイスにマッピングされる。
論文 参考訳(メタデータ) (2022-01-12T21:21:05Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。