論文の概要: A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential
- arxiv url: http://arxiv.org/abs/2511.03665v1
- Date: Wed, 05 Nov 2025 17:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-06 18:19:32.505849
- Title: A Lightweight 3D-CNN for Event-Based Human Action Recognition with Privacy-Preserving Potential
- Title(参考訳): プライバシ保護機能付きイベントベースヒューマンアクション認識のための軽量3D-CNN
- Authors: Mehdi Sefidgar Dilmaghani, Francis Fowley, Peter Corcoran,
- Abstract要約: 本稿では,事象に基づく視覚データを用いた人間行動認識のための軽量な3次元畳み込みニューラルネットワーク(3DCNN)を提案する。
結果、F1スコアは0.9415で、全体的な精度は94.17%で、ベンチマーク3D-CNNアーキテクチャを上回った。
- 参考スコア(独自算出の注目度): 3.232011096928682
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents a lightweight three-dimensional convolutional neural network (3DCNN) for human activity recognition (HAR) using event-based vision data. Privacy preservation is a key challenge in human monitoring systems, as conventional frame-based cameras capture identifiable personal information. In contrast, event cameras record only changes in pixel intensity, providing an inherently privacy-preserving sensing modality. The proposed network effectively models both spatial and temporal dynamics while maintaining a compact design suitable for edge deployment. To address class imbalance and enhance generalization, focal loss with class reweighting and targeted data augmentation strategies are employed. The model is trained and evaluated on a composite dataset derived from the Toyota Smart Home and ETRI datasets. Experimental results demonstrate an F1-score of 0.9415 and an overall accuracy of 94.17%, outperforming benchmark 3D-CNN architectures such as C3D, ResNet3D, and MC3_18 by up to 3%. These results highlight the potential of event-based deep learning for developing accurate, efficient, and privacy-aware human action recognition systems suitable for real-world edge applications.
- Abstract(参考訳): 本稿では,事象に基づく視覚データを用いた人間行動認識のための軽量な3次元畳み込みニューラルネットワーク(3DCNN)を提案する。
従来のフレームベースのカメラが識別可能な個人情報をキャプチャするので、プライバシー保護は人間の監視システムにおいて重要な課題である。
対照的に、イベントカメラはピクセル強度の変化のみを記録し、本質的にプライバシーを保護した知覚モダリティを提供する。
提案するネットワークは,エッジ配置に適したコンパクトな設計を維持しつつ,空間的・時間的ダイナミクスを効果的にモデル化する。
クラス不均衡に対処し、一般化を高めるために、クラス再重み付けとターゲットデータ拡張戦略による焦点損失を用いる。
モデルは、Toyota Smart HomeとETRIデータセットから派生した複合データセットに基づいて、トレーニングされ、評価される。
実験の結果、F1スコアは0.9415、全体的な精度は94.17%で、C3D、ResNet3D、MC3_18といったベンチマーク3D-CNNアーキテクチャを最大3%上回った。
これらの結果は、現実世界のエッジアプリケーションに適した正確で効率的でプライバシーに配慮したヒューマンアクション認識システムを開発するための、イベントベースのディープラーニングの可能性を強調している。
関連論文リスト
- Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T02:37:54Z) - EgoEvGesture: Gesture Recognition Based on Egocentric Event Camera [17.61884467264023]
本稿では,イベントデータ処理に特化して設計された新しいネットワークアーキテクチャを提案する。
イベントカメラを用いたエゴセントリックなジェスチャー認識のための,最初の大規模データセットを構築した。
本手法は,7Mパラメータのみの未確認被験者に対して62.7%の精度を達成し,最先端手法よりも3.1%高い精度を示した。
論文 参考訳(メタデータ) (2025-03-16T09:08:02Z) - FILP-3D: Enhancing 3D Few-shot Class-incremental Learning with Pre-trained Vision-Language Models [59.13757801286343]
クラス増分学習(class-incremental learning)は、モデルが限られたデータで漸進的にトレーニングされている場合、破滅的な忘れの問題を軽減することを目的としている。
本稿では,特徴空間の不整合のための冗長特徴除去器 (RFE) と,重要な雑音に対する空間ノイズ補償器 (SNC) の2つの新しいコンポーネントを備えたFILP-3Dフレームワークを紹介する。
論文 参考訳(メタデータ) (2023-12-28T14:52:07Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Shielding the Unseen: Privacy Protection through Poisoning NeRF with
Spatial Deformation [59.302770084115814]
本稿では,Neural Radiance Fields(NeRF)モデルの生成機能に対して,ユーザのプライバシを保護する革新的な手法を提案する。
我々の新しい中毒攻撃法は、人間の目では認識できないが、NeRFが正確に3Dシーンを再構築する能力を損なうのに十分強力である観察ビューの変化を誘発する。
我々は、高品質の画像を含む29の現実世界シーンからなる2つの共通のNeRFベンチマークデータセットに対して、我々のアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2023-10-04T19:35:56Z) - Highly Efficient 3D Human Pose Tracking from Events with Spiking Spatiotemporal Transformer [23.15179173446486]
イベントのみに基づく3次元ポーズトラッキングのための,最初のスパーススパイキングニューラルネットワーク(SNN)フレームワークを紹介する。
提案手法では,スパースデータを高密度なフォーマットに変換したり,追加のイメージを組み込む必要がなくなり,入力イベントの本質的にの空間性を完全に活用することが可能になる。
実証実験では、既存の最先端(SOTA)ANN方式よりも、19.1%のFLOPと3.6%のコストエネルギーしか必要とせず、我々のアプローチの優位性を実証した。
論文 参考訳(メタデータ) (2023-03-16T22:56:12Z) - Unsupervised Domain Adaptation for Monocular 3D Object Detection via
Self-Training [57.25828870799331]
我々は、Mono3D上での教師なしドメイン適応のための新しい自己学習フレームワークSTMono3Dを提案する。
対象ドメイン上で適応的な擬似ラベルを生成するための教師学生パラダイムを開発する。
STMono3Dは、評価されたすべてのデータセットで顕著なパフォーマンスを達成し、KITTI 3Dオブジェクト検出データセットの完全な教師付き結果を超えています。
論文 参考訳(メタデータ) (2022-04-25T12:23:07Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - 3DFCNN: Real-Time Action Recognition using 3D Deep Neural Networks with
Raw Depth Information [1.3854111346209868]
本稿では,RGB-Dカメラによる生深度画像系列からのリアルタイム人行動認識手法について述べる。
この提案は、3DFCNNという名前の3D完全畳み込みニューラルネットワークをベースとしている。
論文 参考訳(メタデータ) (2020-06-13T23:24:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。