論文の概要: Efficient Egocentric Action Recognition with Multimodal Data
- arxiv url: http://arxiv.org/abs/2506.01757v1
- Date: Mon, 02 Jun 2025 15:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 01:42:09.312303
- Title: Efficient Egocentric Action Recognition with Multimodal Data
- Title(参考訳): マルチモーダルデータを用いた効率的な自己中心的行動認識
- Authors: Marco Calzavara, Ard Kastrati, Matteo Macchini, Dushan Vasilevski, Roger Wattenhofer,
- Abstract要約: 入力モードの異なるサンプリング周波数が自我中心の動作認識性能とCPU使用量に与える影響を解析する。
以上の結果から,RGBフレームのサンプリングレートの低減は,高周波数の3Dハンドポーズ入力を補完することで,CPU要求を大幅に低減しつつ高い精度を維持できることが判明した。
このことは、XRデバイス上で効率的なリアルタイムEARを実現するための実行可能なアプローチとして、マルチモーダル入力戦略の可能性を強調している。
- 参考スコア(独自算出の注目度): 19.70664397400233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing availability of wearable XR devices opens new perspectives for Egocentric Action Recognition (EAR) systems, which can provide deeper human understanding and situation awareness. However, deploying real-time algorithms on these devices can be challenging due to the inherent trade-offs between portability, battery life, and computational resources. In this work, we systematically analyze the impact of sampling frequency across different input modalities - RGB video and 3D hand pose - on egocentric action recognition performance and CPU usage. By exploring a range of configurations, we provide a comprehensive characterization of the trade-offs between accuracy and computational efficiency. Our findings reveal that reducing the sampling rate of RGB frames, when complemented with higher-frequency 3D hand pose input, can preserve high accuracy while significantly lowering CPU demands. Notably, we observe up to a 3x reduction in CPU usage with minimal to no loss in recognition performance. This highlights the potential of multimodal input strategies as a viable approach to achieving efficient, real-time EAR on XR devices.
- Abstract(参考訳): ウェアラブルXRデバイスの普及により、より深い人間の理解と状況認識を提供するEgocentric Action Recognition(EAR)システムに対する新たな視点が開かれる。
しかしながら、これらのデバイスにリアルタイムアルゴリズムをデプロイすることは、ポータビリティ、バッテリ寿命、計算リソース間の本質的にのトレードオフのため、難しい場合がある。
本研究では,RGBビデオと3Dハンドポーズの異なる入力モードにおけるサンプリング周波数が,エゴセントリックな動作認識性能とCPU使用量に与える影響を系統的に分析する。
様々な構成を探索することにより、精度と計算効率のトレードオフを包括的に評価する。
以上の結果から,RGBフレームのサンプリングレートの低減は,高周波数の3Dハンドポーズ入力を補完することで,CPU要求を大幅に低減しつつ高い精度を維持できることが判明した。
特に、認識性能の低下を最小限に抑えつつ、CPU使用率の最大3倍の低下を観測する。
このことは、XRデバイス上で効率的なリアルタイムEARを実現するための実行可能なアプローチとして、マルチモーダル入力戦略の可能性を強調している。
関連論文リスト
- FLARES: Fast and Accurate LiDAR Multi-Range Semantic Segmentation [52.89847760590189]
3Dシーンの理解は、自動運転における重要な課題である。
近年の手法では、レンジビュー表現を利用して処理効率を向上している。
範囲ビューに基づくLiDARセマンティックセマンティックセグメンテーションのためのワークフローを再設計する。
論文 参考訳(メタデータ) (2025-02-13T12:39:26Z) - GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving [9.023864430027333]
我々はGPSRと呼ばれる3次元ガウススプラッティングに基づくマルチモーダル位置認識ネットワークを提案する。
マルチビューRGB画像とLiDAR点雲を時間的に統一されたシーン表現とMultimodal Gaussian Splattingを明示的に組み合わせている。
提案手法は,多視点カメラとLiDARの相補的強度を有効活用し,ソタ位置認識性能を向上し,ソタ位置認識性能を向上する。
論文 参考訳(メタデータ) (2024-10-01T00:43:45Z) - Cross-Cluster Shifting for Efficient and Effective 3D Object Detection
in Autonomous Driving [69.20604395205248]
本稿では,自律運転における3次元物体検出のための3次元点検出モデルであるShift-SSDを提案する。
我々は、ポイントベース検出器の表現能力を解き放つために、興味深いクロスクラスタシフト操作を導入する。
我々は、KITTI、ランタイム、nuScenesデータセットに関する広範な実験を行い、Shift-SSDの最先端性能を実証した。
論文 参考訳(メタデータ) (2024-03-10T10:36:32Z) - Agile gesture recognition for capacitive sensing devices: adapting
on-the-job [55.40855017016652]
本システムでは, コンデンサセンサからの信号を手の動き認識器に組み込んだ手動作認識システムを提案する。
コントローラは、着用者5本の指それぞれからリアルタイム信号を生成する。
機械学習技術を用いて時系列信号を解析し,500ms以内で5本の指を表現できる3つの特徴を同定する。
論文 参考訳(メタデータ) (2023-05-12T17:24:02Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - 3D Adapted Random Forest Vision (3DARFV) for Untangling
Heterogeneous-Fabric Exceeding Deep Learning Semantic Segmentation Efficiency
at the Utmost Accuracy [1.6020567943077142]
3D画像の解析には多くの計算が必要であり、大きなエネルギー消費とともに処理時間が長くなる。
本稿では,確率的決定木アルゴリズムである3次元適応ランダムフォレストビジョン(DARFV)のセマンティックセグメンテーション能力について述べる。
論文 参考訳(メタデータ) (2022-03-23T15:05:23Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Neural Disparity Refinement for Arbitrary Resolution Stereo [67.55946402652778]
本稿では,安価で広範なコンシューマデバイスへの3Dコンピュータビジョンの展開を容易にすることを目的とした,ニューラルディファリティ改善のための新しいアーキテクチャを提案する。
我々のアプローチは任意の出力解像度で洗練された不均一写像を推定できる連続的な定式化に依存している。
論文 参考訳(メタデータ) (2021-10-28T18:00:00Z) - YOLOpeds: Efficient Real-Time Single-Shot Pedestrian Detection for Smart
Camera Applications [2.588973722689844]
この研究は、スマートカメラアプリケーションにおけるディープラーニングに基づく歩行者検出の効率的な展開のために、精度と速度の良好なトレードオフを達成するという課題に対処する。
分離可能な畳み込みに基づいて計算効率の良いアーキテクチャを導入し、層間密結合とマルチスケール機能融合を提案する。
全体として、YOLOpedsは、既存のディープラーニングモデルよりも86%の速度で、毎秒30フレーム以上のリアルタイム持続的な操作を提供する。
論文 参考訳(メタデータ) (2020-07-27T09:50:11Z) - LE-HGR: A Lightweight and Efficient RGB-based Online Gesture Recognition
Network for Embedded AR Devices [8.509059894058947]
本稿では,低消費電力な組込みデバイス上でのリアルタイムジェスチャー認識を実現するために,軽量で計算効率のよいHGRフレームワークLE-HGRを提案する。
提案手法は高精度でロバスト性があり,様々な複雑な相互作用環境において,高性能な性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-01-16T05:23:24Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。