論文の概要: DarkShake-DVS: Event-based Human Action Recognition under Low-light andShaking Camera Conditions
- arxiv url: http://arxiv.org/abs/2605.20680v1
- Date: Wed, 20 May 2026 03:47:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.470095
- Title: DarkShake-DVS: Event-based Human Action Recognition under Low-light andShaking Camera Conditions
- Title(参考訳): DarkShake-DVS:低照度カメラ条件下でのイベントベースヒューマンアクション認識
- Authors: Jiaqi Chen, Qinfu Xu, Liyuan Pan,
- Abstract要約: HAR(Human Action Recognition)は、現実世界の多様な応用のための基本的なコンピュータビジョンタスクである。
現在の研究では、低照度条件を統合するベンチマークの欠如、6-DoFモーション、同期IMUデータという2つの大きな課題に直面している。
イベントIMU安定化HAR(EIS-HAR)と2つのモジュールを提案する。
- 参考スコア(独自算出の注目度): 31.62492338790292
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Action Recognition (HAR) is a fundamental computer vision task with diverse real-world applications. Practical deployments often involve low-light environments and unconstrained 6-DoF camera motion, conditions that degrade visual quality, disrupt temporal coherence, and compromise reliability of existing methods. Event cameras, with high low-light sensitivity and microsecond-level temporal resolution, paired with an inertial measurement unit (IMU), present a promising solution. However, current research faces two key challenges: absence of a benchmark integrating low-light conditions, 6-DoF motion, and synchronized IMU data; and lack of effective motion compensation techniques. To address these, we propose Event-IMU Stabilized HAR (EIS-HAR), with two modules. The first is an EIS module that reduces motion blur via a non-linear warping function to reconstruct a motion-compensated input. The second is a HAR module with a four-stage hybrid architecture to efficiently extract spatiotemporal features for accurate action recognition. To alleviate data scarcity, we introduce DarkShake-DVS, the first large-scale event-based HAR benchmark that includes 18,041 realworld clips captured in low light and intense 6-DoF motion, supplemented by synchronized IMU data. Extensive experiments on three datasets demonstrate consistent superiority of EIS-HAR over state-of-the-art methods.
- Abstract(参考訳): HAR(Human Action Recognition)は、現実世界の多様な応用のための基本的なコンピュータビジョンタスクである。
現実的な展開には、低照度環境と制約のない6-DoFカメラの動き、視覚的品質の低下、時間的一貫性の破壊、既存の手法の信頼性の妥協などが含まれる。
イベントカメラは、高感度でマイクロ秒レベルの時間分解能を持ち、慣性測定ユニット(IMU)と組み合わせることで、期待できるソリューションを提供する。
しかし、現在の研究では、低照度条件を統合するベンチマークがないこと、6-DoFモーション、同期IMUデータがないこと、効果的な動き補償技術がないこと、の2つの大きな課題に直面している。
そこで本稿では,イベントIMU安定化HAR (EIS-HAR) を2つのモジュールで提案する。
第1のEISモジュールは、非線形ワープ機能によって動きのぼかしを低減し、モーション補償入力を再構築する。
2つ目は、4段階のハイブリッドアーキテクチャを備えたHARモジュールで、正確な行動認識のための時空間的特徴を効率的に抽出する。
データの不足を軽減するために、DarkShake-DVSという、最初の大規模イベントベースのHARベンチマークを紹介します。
3つのデータセットに対する大規模な実験は、最先端の手法よりもEIS-HARが一貫した優位性を示している。
関連論文リスト
- Event-based SLAM Benchmark for High-Speed Maneuvers [68.148886127117]
イベントベースのカメラはバイオインスパイアされたセンサーで、独立して、マイクロ秒の解像度で明るさの変化に非同期に反応する。
既存のイベントベースのアプローチは、高速操作による動きのぼかしを緩和することに成功したが、多くの制限に悩まされた。
イベントベースの状態推定のためのベンチマークフレームワークであるEvSLAMを導入する。
論文 参考訳(メタデータ) (2026-04-27T04:36:41Z) - FlashCap: Millisecond-Accurate Human Motion Capture via Flashing LEDs and Event-Based Vision [70.26305628326237]
ミリ秒差は、スポーツ競技における勝利または敗戦を決定することができる。
PMTはオリンピックのような特殊なシナリオで高速RGBカメラを用いて達成される。
PMTのための最初のフラッシュLEDベースのMoCapシステムであるFlashCapを開発した。
論文 参考訳(メタデータ) (2026-03-20T08:59:37Z) - Edged USLAM: Edge-Aware Event-Based SLAM with Learning-Based Depth Priors [1.504944269180605]
イベントカメラは、これらの問題を高時間分解能と高ダイナミックレンジで緩和する。
We present Edged USLAM, a hybrid visual-inertial system that extends Ultimate SLAM with a edge-aware front-end and a light depth module。
論文 参考訳(メタデータ) (2026-03-09T09:28:52Z) - EDmamba: Rethinking Efficient Event Denoising with Spatiotemporal Decoupled SSMs [23.63023704154084]
イベントカメラはマイクロ秒のレイテンシと広いダイナミックレンジを提供するが、生のストリームは空間的なアーティファクトによってマージされる。
EDmambaは、物理的メカニズムの異なる空間的および時間的ノイズが生じるというキーインサイトを取り入れた、コンパクトなイベントデノベーションフレームワークである。
この分離された設計は、ネットワークを88.9Kパラメータと2.27GPに蒸留し、1つのトランスフォーマー上で68msで100Kイベントのリアルタイムスループットを実現する。
論文 参考訳(メタデータ) (2025-05-08T16:27:27Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - LIF-Seg: LiDAR and Camera Image Fusion for 3D LiDAR Semantic
Segmentation [78.74202673902303]
本稿では,LiDAR分割のための粗大なLiDARとカメラフュージョンベースネットワーク(LIF-Seg)を提案する。
提案手法は,画像の文脈情報を完全に活用し,単純だが効果的な早期融合戦略を導入する。
これら2つのコンポーネントの協力により、効果的なカメラ-LiDAR融合が成功する。
論文 参考訳(メタデータ) (2021-08-17T08:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。