論文の概要: Real-Time Multi-Modal Embedded Vision Framework for Object Detection Facial Emotion Recognition and Biometric Identification on Low-Power Edge Platforms
- arxiv url: http://arxiv.org/abs/2601.11970v1
- Date: Sat, 17 Jan 2026 09:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.400449
- Title: Real-Time Multi-Modal Embedded Vision Framework for Object Detection Facial Emotion Recognition and Biometric Identification on Low-Power Edge Platforms
- Title(参考訳): 低消費電力エッジプラットフォーム上での物体検出顔表情認識と生体認証のためのリアルタイム多モード組込み視覚フレームワーク
- Authors: S. M. Khalid Bin Zahid, Md. Rakibul Hasan Nishat, Abdul Hasib, Md. Rakibul Hasan, Md. Ashiqussalehin, Md. Sahadat Hossen Sajib, A. S. M. Ahsanul Sarkar Akib,
- Abstract要約: Raspberry Pi 5エッジプラットフォーム上にデプロイされた統合パイプラインにオブジェクト検出、所有者固有の顔認識、感情検出を統合したリアルタイムマルチモーダルビジョンフレームワークを提案する。
我々の研究は、コスト効率の良いエッジハードウェア上で複雑なマルチモーダルAIをアンロックする鍵は、コンテキスト対応のスケジューリングであることを示している。
- 参考スコア(独自算出の注目度): 0.44219509596259216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent surveillance systems often handle perceptual tasks such as object detection, facial recognition, and emotion analysis independently, but they lack a unified, adaptive runtime scheduler that dynamically allocates computational resources based on contextual triggers. This limits their holistic understanding and efficiency on low-power edge devices. To address this, we present a real-time multi-modal vision framework that integrates object detection, owner-specific face recognition, and emotion detection into a unified pipeline deployed on a Raspberry Pi 5 edge platform. The core of our system is an adaptive scheduling mechanism that reduces computational load by 65\% compared to continuous processing by selectively activating modules such as, YOLOv8n for object detection, a custom FaceNet-based embedding system for facial recognition, and DeepFace's CNN for emotion classification. Experimental results demonstrate the system's efficacy, with the object detection module achieving an Average Precision (AP) of 0.861, facial recognition attaining 88\% accuracy, and emotion detection showing strong discriminatory power (AUC up to 0.97 for specific emotions), while operating at 5.6 frames per second. Our work demonstrates that context-aware scheduling is the key to unlocking complex multi-modal AI on cost-effective edge hardware, making intelligent perception more accessible and privacy-preserving.
- Abstract(参考訳): インテリジェント監視システムは、オブジェクト検出、顔認識、感情分析などの知覚的なタスクを独立して扱うことが多いが、コンテキストトリガに基づいて計算リソースを動的に割り当てる、統一された適応型ランタイムスケジューラは欠如している。
これにより、低消費電力エッジデバイスに対する全体的な理解と効率が制限される。
これを解決するために,Raspberry Pi 5エッジプラットフォーム上にデプロイされた統合パイプラインにオブジェクト検出,所有者固有の顔認識,感情検出を統合したリアルタイムマルチモーダルビジョンフレームワークを提案する。
本システムの中核は,オブジェクト検出用YOLOv8n,顔認識用FaceNet組み込みシステム,感情分類用DeepFaceのCNNなどのモジュールを選択的に活性化することにより,連続処理と比較して計算負荷を65倍に削減する適応スケジューリング機構である。
実験の結果、物体検出モジュールが0.861の平均精度(AP)を達成し、顔認識が88\%の精度を達成し、強い識別力(特定の感情に対して最大0.97までのAUC)を示す感情検出が毎秒5.6フレームで動作することを示した。
私たちの研究は、コンテキスト対応のスケジューリングが、コスト効率の良いエッジハードウェア上で複雑なマルチモーダルAIをアンロックする鍵であることを実証しています。
関連論文リスト
- Deep Learning-Based Real-Time Sequential Facial Expression Analysis Using Geometric Features [1.0742675209112622]
本研究では,ディープラーニングと幾何学的特徴を用いたリアルタイム顔表情認識への新しいアプローチを提案する。
提案手法は,MediaPipe FaceMeshを用いて顔のランドマークの迅速かつ正確な検出を行う。
このアプローチはリアルタイム適用性を示し、コンシューマグレードのハードウェアで毎秒約165フレームを処理する。
論文 参考訳(メタデータ) (2025-12-05T12:26:31Z) - Video Object Recognition in Mobile Edge Networks: Local Tracking or Edge Detection? [57.000348519630286]
モバイルエッジコンピューティングの最近の進歩により、高精度ニューラルネットワークを備えたエッジサーバに集約的なオブジェクト検出をオフロードすることが可能になった。
このハイブリッドアプローチは有望なソリューションを提供するが、新たな課題として、エッジ検出とローカルトラッキングのタイミングを決定する。
局所的なトラッキングとエッジ検出を適応的に選択する深層強化学習に基づくアルゴリズムである単一デバイス環境での LTED-Ada を提案する。
論文 参考訳(メタデータ) (2025-11-25T04:54:51Z) - AutoOEP -- A Multi-modal Framework for Online Exam Proctoring [1.6522310568442877]
本稿では,コンピュータビジョンと機械学習を活用した総合的マルチモーダルフレームワークであるAutoOEP(Automated Online Exam Proctoring)を紹介する。
このシステムは、デュアルカメラ装置を使用して、検査の正面ビューとワークスペースの側面ビューの両方をキャプチャし、盲点を最小限にする。
Hand Moduleは、禁止アイテム(携帯電話、ノートなど)を検知し、これらのオブジェクトに手近をトラッキングするために、微調整されたYOLOv11モデルを使用している。
論文 参考訳(メタデータ) (2025-09-13T16:34:38Z) - Wandering around: A bioinspired approach to visual attention through object motion sensitivity [40.966228784674115]
アクティブビジョンは動的視覚認識を可能にし、コンピュータビジョンにおける静的フィードフォワードアーキテクチャの代替を提供する。
哺乳類の網膜に触発されたイベントベースのカメラは、非同期シーンの変化を捉えてこの機能を強化する。
イベントベースのカメラが動いている間、移動物体を識別するためには、エージェントは物体の動きのセグメンテーション機構を必要とする。
本研究は、物体の運動感度を介して選択的注意を喚起するための、畳み込みニューラルネットワークバイオインスパイアされた注意システムを提案する。
論文 参考訳(メタデータ) (2025-02-10T18:16:30Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - Improving Facial Landmark Detection Accuracy and Efficiency with Knowledge Distillation [4.779050216649159]
本稿では,知識蒸留法の開発を通じて,これらの課題に対処する新しいアプローチを提案する。
私たちの目標は、さまざまな条件下で顔のランドマークを正確に特定できるモデルを設計することです。
この手法は成功し、IEEE ICME 2024 PAIRコンペティションの参加者165人中6位に終わった。
論文 参考訳(メタデータ) (2024-04-09T05:30:58Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - Identity-Aware Attribute Recognition via Real-Time Distributed Inference
in Mobile Edge Clouds [53.07042574352251]
我々は、MEC対応カメラ監視システムにおいて、re-IDを用いた歩行者属性認識のための新しいモデルの設計を行う。
本稿では,属性認識と人物再IDを協調的に考慮し,分散モジュールの集合を持つ新しい推論フレームワークを提案する。
そこで我々は,提案した分散推論フレームワークのモジュール分布の学習に基づくアルゴリズムを考案した。
論文 参考訳(メタデータ) (2020-08-12T12:03:27Z) - Continuous Emotion Recognition via Deep Convolutional Autoencoder and
Support Vector Regressor [70.2226417364135]
マシンはユーザの感情状態を高い精度で認識できることが不可欠である。
ディープニューラルネットワークは感情を認識する上で大きな成功を収めている。
表情認識に基づく連続的感情認識のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-01-31T17:47:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。