論文の概要: Resource-Efficient RGB-Only Action Recognition for Edge Deployment
- arxiv url: http://arxiv.org/abs/2602.10818v1
- Date: Wed, 11 Feb 2026 13:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.912672
- Title: Resource-Efficient RGB-Only Action Recognition for Edge Deployment
- Title(参考訳): エッジ展開のための資源効率の良いRGBオンリー動作認識
- Authors: Dongsik Yoon, Jongeun Kim, Dayeon Lee,
- Abstract要約: エッジデバイスでのアクション認識は、レイテンシ、メモリ、ストレージ、電力消費に厳しい制約をもたらす。
デバイス上での効率的な推論に適したコンパクトなRGB専用ネットワークを提案する。
- 参考スコア(独自算出の注目度): 1.8696215611965206
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action recognition on edge devices poses stringent constraints on latency, memory, storage, and power consumption. While auxiliary modalities such as skeleton and depth information can enhance recognition performance, they often require additional sensors or computationally expensive pose-estimation pipelines, limiting practicality for edge use. In this work, we propose a compact RGB-only network tailored for efficient on-device inference. Our approach builds upon an X3D-style backbone augmented with Temporal Shift, and further introduces selective temporal adaptation and parameter-free attention. Extensive experiments on the NTU RGB+D 60 and 120 benchmarks demonstrate a strong accuracy-efficiency balance. Moreover, deployment-level profiling on the Jetson Orin Nano verifies a smaller on-device footprint and practical resource utilization compared to existing RGB-based action recognition techniques.
- Abstract(参考訳): エッジデバイスでのアクション認識は、レイテンシ、メモリ、ストレージ、電力消費に厳しい制約をもたらす。
スケルトンや深度情報などの補助的なモダリティは認識性能を高めることができるが、しばしば追加のセンサーや計算に高価なポーズ推定パイプラインを必要とし、エッジ使用の実用性を制限する。
本研究では,デバイス上での効率的な推論に適したコンパクトなRGB専用ネットワークを提案する。
提案手法は,Temporal Shiftを付加したX3Dスタイルのバックボーン上に構築され,選択的時間適応とパラメータフリーアテンションが導入された。
NTU RGB+D 60および120ベンチマークの大規模な実験は、高い精度と効率のバランスを示す。
さらに、Jetson Orin Nano上のデプロイメントレベルのプロファイリングは、既存のRGBベースのアクション認識技術と比較してデバイス上のフットプリントが小さく、実用的なリソース利用が可能であることを検証している。
関連論文リスト
- Efficient On-Board Processing of Oblique UAV Video for Rapid Flood Extent Mapping [7.460695517551536]
TTR(Temporal Token Reuse)は、組み込みデバイス上でビデオセグメンテーションを高速化する適応型推論フレームワークである。
我々は,TTRがセグメンテーション精度(0.5% mIoU)の劣化を無視して,推論遅延の30%低減を実現していることを示す。
これらの結果から,TTRは運用フロンティアを効果的にシフトさせ,高忠実でリアルタイムな斜めビデオ理解を可能にすることが確認された。
論文 参考訳(メタデータ) (2026-01-16T13:41:56Z) - Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Efficient Egocentric Action Recognition with Multimodal Data [19.70664397400233]
入力モードの異なるサンプリング周波数が自我中心の動作認識性能とCPU使用量に与える影響を解析する。
以上の結果から,RGBフレームのサンプリングレートの低減は,高周波数の3Dハンドポーズ入力を補完することで,CPU要求を大幅に低減しつつ高い精度を維持できることが判明した。
このことは、XRデバイス上で効率的なリアルタイムEARを実現するための実行可能なアプローチとして、マルチモーダル入力戦略の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-02T15:04:23Z) - Confidence-Aware RGB-D Face Recognition via Virtual Depth Synthesis [48.59382455101753]
2D顔認証は、照明、閉塞、ポーズの変化により、制約のない環境において課題に遭遇する。
近年の研究では、深度情報を組み込んだRGB-D顔認証に焦点が当てられている。
本研究では,まず,深度モデル事前学習のための3次元Morphable Modelsによって生成された多様な深度データセットを構築する。
そこで本研究では,手軽に利用できるRGBと深度モデルを利用したドメイン非依存の事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-11T09:12:24Z) - Design Space Exploration of Low-Bit Quantized Neural Networks for Visual
Place Recognition [26.213493552442102]
視覚的位置認識(VPR)は、視覚認識システムにおいて、グローバルな再局在を行うための重要なタスクである。
最近、リソース利用に限定したパフォーマンス指標としてリコール@1メトリクスに焦点が当てられている。
これにより、低出力エッジデバイスにデプロイするには、ディープラーニングモデルを使用する方法が大きすぎる。
完全精度と混合精度のポストトレーニング量子化を併用したコンパクト畳み込みネットワーク設計がVPR性能に及ぼす影響について検討する。
論文 参考訳(メタデータ) (2023-12-14T15:24:42Z) - Decomposed Cross-modal Distillation for RGB-based Temporal Action
Detection [23.48709176879878]
時間的アクション検出は、ビデオ内の時間間隔とアクションインスタンスのクラスを予測することを目的としている。
既存の2ストリームモデルでは、計算コストの高い光フローに依存するため、推論速度が遅い。
本稿では,移動モーダルの知識を伝達することで,RGBベースの強力な検出器を構築するためのクロスモーダル蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-30T10:47:26Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - DUT-LFSaliency: Versatile Dataset and Light Field-to-RGB Saliency
Detection [104.50425501764806]
ライトフィールドサリエンシー検出のための汎用性の高いアプリケーションを可能にする大規模なデータセットを紹介します。
本論文では,フォカルストリームとRGBストリームからなる非対称2ストリームモデルを提案する。
実験は、我々の焦点ストリームが最先端のパフォーマンスを達成することを実証する。
論文 参考訳(メタデータ) (2020-12-30T11:53:27Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。