論文の概要: Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living
- arxiv url: http://arxiv.org/abs/2603.04509v1
- Date: Wed, 04 Mar 2026 19:00:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:10.930389
- Title: Recognition of Daily Activities through Multi-Modal Deep Learning: A Video, Pose, and Object-Aware Approach for Ambient Assisted Living
- Title(参考訳): マルチモーダル・ディープ・ラーニングによる日常活動の認識--環境支援型生活のためのビデオ, ポーズ, オブジェクト・アウェアアプローチ
- Authors: Kooshan Hashemifard, Pau Climent-Pérez, Francisco Florez-Revuelta,
- Abstract要約: 本稿では,AAL設定における高齢者を対象とした生活行動認識のためのマルチモーダルアプローチを提案する。
提案システムは,3次元畳み込みニューラルネットワーク(CNN)で処理される視覚情報と,グラフ畳み込みニューラルネットワークで解析された3次元人のポーズデータを統合する。
その結果,本システムでは,様々な日常活動において,競争力のある分類精度を実現することができた。
- 参考スコア(独自算出の注目度): 5.0149699000056644
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recognition of daily activities is a critical element for effective Ambient Assisted Living (AAL) systems, particularly to monitor the well-being and support the independence of older adults in indoor environments. However, developing robust activity recognition systems faces significant challenges, including intra-class variability, inter-class similarity, environmental variability, camera perspectives, and scene complexity. This paper presents a multi-modal approach for the recognition of activities of daily living tailored for older adults within AAL settings. The proposed system integrates visual information processed by a 3D Convolutional Neural Network (CNN) with 3D human pose data analyzed by a Graph Convolutional Network. Contextual information, derived from an object detection module, is fused with the 3D CNN features using a cross-attention mechanism to enhance recognition accuracy. This method is evaluated using the Toyota SmartHome dataset, which consists of real-world indoor activities. The results indicate that the proposed system achieves competitive classification accuracy for a range of daily activities, highlighting its potential as an essential component for advanced AAL monitoring solutions. This advancement supports the broader goal of developing intelligent systems that promote safety and autonomy among older adults.
- Abstract(参考訳): 日常活動の認識は、特に屋内環境における高齢者の自立を監視・支援するために、効果的な環境支援生活(AAL)システムにとって重要な要素である。
しかし、ロバストな活動認識システムの開発には、クラス内変動性、クラス間類似性、環境変動性、カメラ視点、シーンの複雑さなど、大きな課題に直面している。
本稿では,AAL設定における高齢者を対象とした生活行動認識のためのマルチモーダルアプローチを提案する。
提案システムは,3次元畳み込みニューラルネットワーク(CNN)で処理される視覚情報と,グラフ畳み込みニューラルネットワークで解析された3次元人のポーズデータを統合する。
オブジェクト検出モジュールから派生したコンテキスト情報は、認識精度を高めるために、クロスアテンション機構を用いて3D CNN特徴と融合する。
本手法は,実際の屋内活動からなるToyota SmartHomeデータセットを用いて評価する。
その結果,本システムは,高度なAALモニタリングソリューションの不可欠なコンポーネントとしての可能性を強調し,様々な日常生活活動において,競争力のある分類精度を達成できることが示唆された。
この進歩は、高齢者の安全と自律性を促進するインテリジェントシステムを開発するという、より広範な目標を支持している。
関連論文リスト
- A Study on Real-time Object Detection using Deep Learning [0.0]
この記事では、ディープラーニングアルゴリズムがリアルタイムオブジェクト認識の強化にどのように利用されているか、詳しく説明する。
利用可能なさまざまなオブジェクト検出モデル、オープンベンチマークデータセット、およびさまざまなアプリケーションにおけるオブジェクト検出モデルの使用に関する研究に関する情報を提供する。
論文 参考訳(メタデータ) (2026-02-17T18:12:42Z) - Integrating Temporal Context into Streaming Data for Human Activity Recognition in Smart Home [3.1032184155196982]
受動的センサーからのヒューマンアクティビティ認識(HAR)は、主に従来の機械学習に依存している。
私たちは、朝、午後、夜のアクティビティをクラスタリングすることで、この問題に取り組みます。
日・日・週の時刻を周期的時間的特徴として組み込むことにより特徴ベクトルを拡張することを提案する。
論文 参考訳(メタデータ) (2026-01-09T09:47:06Z) - PhysVLM-AVR: Active Visual Reasoning for Multimodal Large Language Models in Physical Environments [36.84821207878773]
マルチモーダル大言語モデル(MLLM)における視覚的推論は、主に静的で完全に観測可能な設定で研究されている。
AVR(Active Visual Reasoning)タスクを導入し、視覚的推論を部分的に観察可能で対話的な環境に拡張する。
推論と情報収集の効率性の両方を評価するために,複数ラウンドの対話型環境を特徴とするベンチマークを提案する。
論文 参考訳(メタデータ) (2025-10-24T02:59:00Z) - Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO [63.140883026848286]
アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
論文 参考訳(メタデータ) (2025-05-27T17:29:31Z) - Robustness-Aware 3D Object Detection in Autonomous Driving: A Review and Outlook [19.539295469044813]
本研究は,現実シナリオ下での知覚システム評価において,精度と遅延とともに頑健性の重要性を強調した。
我々の研究は、カメラのみ、LiDARのみ、マルチモーダルな3Dオブジェクト検出アルゴリズムを広範囲に調査し、精度、レイテンシ、堅牢性の間のトレードオフを徹底的に評価する。
これらのうち、多モード3D検出手法は優れた堅牢性を示し、新しい分類法を導入し、文献を改良して明瞭性を高める。
論文 参考訳(メタデータ) (2024-01-12T12:35:45Z) - Student Activity Recognition in Classroom Environments using Transfer
Learning [0.0]
本稿では,教室環境における学生の活動を検出し,認識するシステムを提案する。
Xceptionは、新しい教室データセットで93%の精度を達成した。
論文 参考訳(メタデータ) (2023-12-01T04:51:57Z) - AGO-Net: Association-Guided 3D Point Cloud Object Detection Network [86.10213302724085]
ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。
我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。
論文 参考訳(メタデータ) (2022-08-24T16:54:38Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。