論文の概要: Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling
- arxiv url: http://arxiv.org/abs/2207.05249v2
- Date: Wed, 13 Jul 2022 15:13:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-15 07:30:12.164312
- Title: Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling
- Title(参考訳): 適応時空間サンプリングを用いた人間の視覚誘発行動認識
- Authors: Khoi-Nguyen C. Mac, Minh N. Do, Minh P. Vo
- Abstract要約: 本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
- 参考スコア(独自算出の注目度): 13.427887784558168
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adaptive sampling that exploits the spatiotemporal redundancy in videos is
critical for always-on action recognition on wearable devices with limited
computing and battery resources. The commonly used fixed sampling strategy is
not context-aware and may under-sample the visual content, and thus adversely
impacts both computation efficiency and accuracy. Inspired by the concepts of
foveal vision and pre-attentive processing from the human visual perception
mechanism, we introduce a novel adaptive spatiotemporal sampling scheme for
efficient action recognition. Our system pre-scans the global scene context at
low-resolution and decides to skip or request high-resolution features at
salient regions for further processing. We validate the system on EPIC-KITCHENS
and UCF-101 datasets for action recognition, and show that our proposed
approach can greatly speed up inference with a tolerable loss of accuracy
compared with those from state-of-the-art baselines.
- Abstract(参考訳): ビデオの時空間的冗長性を利用する適応サンプリングは、コンピューティングとバッテリーリソースの制限のあるウェアラブルデバイスにおける常時オンアクション認識に不可欠である。
一般的に使われる固定サンプリング戦略は文脈認識ではなく、視覚コンテンツを過小評価する可能性があるため、計算効率と精度の両方に悪影響を及ぼす。
本稿では,人間の視覚知覚機構からのフォビア視覚の概念と事前接触処理に着想を得て,効率的な行動認識のための適応時空間サンプリングスキームを提案する。
本システムでは,グローバルシーンのコンテキストを低解像度で事前にスキャンし,高精細な領域で高精細度機能をスキップしたり要求したりする。
動作認識のためのEPIC-KITCHENSおよびUCF-101データセット上でのシステム検証を行い,提案手法により,最先端のベースラインに比べて精度の低下が許容できることを示す。
関連論文リスト
- Perceptual Piercing: Human Visual Cue-based Object Detection in Low Visibility Conditions [2.0409124291940826]
本研究では,大気散乱と人間の視覚野機構に触発された新しい深層学習フレームワークを提案する。
本研究の目的は, 環境条件下での検知システムの精度と信頼性を高めることである。
論文 参考訳(メタデータ) (2024-10-02T04:03:07Z) - VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors [3.523208537466128]
本稿では,視覚的包絡を先行として高解像度画像から深度推定を行うステレオマッチング手法を提案する。
提案手法では,シーンの補助的な視点から抽出したオブジェクトマスクを用いて,不一致推定を導出し,マッチングの検索スペースを効果的に削減する。
このアプローチは、下流の復元作業において、正確な深さが重要な役割を果たすボリュームキャプチャシステムにおけるステレオリグに特化している。
論文 参考訳(メタデータ) (2024-06-04T17:59:57Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Adaptive Local-Component-aware Graph Convolutional Network for One-shot
Skeleton-based Action Recognition [54.23513799338309]
骨格に基づく行動認識のための適応的局所成分認識グラフ畳み込みネットワークを提案する。
我々の手法はグローバルな埋め込みよりも強力な表現を提供し、我々のモデルが最先端に到達するのに役立ちます。
論文 参考訳(メタデータ) (2022-09-21T02:33:07Z) - Accurate and Real-time Pseudo Lidar Detection: Is Stereo Neural Network
Really Necessary? [6.8067583993953775]
我々は,より強力なステレオマッチング予測器を備えたシステムを開発し,精度向上のための改良手法を提案する。
提案システムは23ミリ秒の計算で最先端のアプローチと競合する精度を達成し,実車用アプリケーションへのデプロイに適した候補であることを示す。
論文 参考訳(メタデータ) (2022-06-28T09:53:00Z) - Scalable Vehicle Re-Identification via Self-Supervision [66.2562538902156]
自動車再同定は、都市規模の車両分析システムにおいて重要な要素の1つである。
車両再設計のための最先端のソリューションの多くは、既存のre-idベンチマークの精度向上に重点を置いており、計算の複雑さを無視することが多い。
推論時間に1つのネットワークのみを使用する自己教師型学習によって、シンプルで効果的なハイブリッドソリューションを提案する。
論文 参考訳(メタデータ) (2022-05-16T12:14:42Z) - Information-Theoretic Odometry Learning [83.36195426897768]
生体計測推定を目的とした学習動機付け手法のための統合情報理論フレームワークを提案する。
提案フレームワークは情報理論言語の性能評価と理解のためのエレガントなツールを提供する。
論文 参考訳(メタデータ) (2022-03-11T02:37:35Z) - Object-based Illumination Estimation with Rendering-aware Neural
Networks [56.01734918693844]
個々の物体とその局所画像領域のRGBD外観から高速環境光推定手法を提案する。
推定照明により、仮想オブジェクトは実際のシーンと一貫性のあるシェーディングでARシナリオでレンダリングできる。
論文 参考訳(メタデータ) (2020-08-06T08:23:19Z) - AR-Net: Adaptive Frame Resolution for Efficient Action Recognition [70.62587948892633]
行動認識はコンピュータビジョンにおいてオープンで困難な問題である。
本稿では,入力に条件付けされた各フレームの最適な解像度をオンザフライで選択し,効率的な動作認識を実現する,AR-Netと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-31T01:36:04Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。