論文の概要: SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2601.17391v1
- Date: Sat, 24 Jan 2026 09:24:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.709331
- Title: SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition
- Title(参考訳): SMV-EAR: 効果的なイベントベース行動認識に時空間多視点表現学習を実現する
- Authors: Rui Fan, Weidong Hao,
- Abstract要約: イベント行動認識(EAR)は、時間運動力学が非常に重要となるプライバシー保護と効率の利点を提供する。
本稿では EAR の鍵となる SMVRL 設計段階を再検討し,スパースイベントの変換不変密度変換による多視点表現を提案する。
既存のSMVRL EOR法よりもTop-1の精度が向上し、パラメータが30.1%減少し、計算量が30.2%減少し、我々のフレームワークは新しい強力なEARパラダイムとして確立された。
- 参考スコア(独自算出の注目度): 4.322175390073132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event cameras action recognition (EAR) offers compelling privacy-protecting and efficiency advantages, where temporal motion dynamics is of great importance. Existing spatiotemporal multi-view representation learning (SMVRL) methods for event-based object recognition (EOR) offer promising solutions by projecting H-W-T events along spatial axis H and W, yet are limited by its translation-variant spatial binning representation and naive early concatenation fusion architecture. This paper reexamines the key SMVRL design stages for EAR and propose: (i) a principled spatiotemporal multi-view representation through translation-invariant dense conversion of sparse events, (ii) a dual-branch, dynamic fusion architecture that models sample-wise complementarity between motion features from different views, and (iii) a bio-inspired temporal warping augmentation that mimics speed variability of real-world human actions. On three challenging EAR datasets of HARDVS, DailyDVS-200 and THU-EACT-50-CHL, we show +7.0%, +10.7%, and +10.2% Top-1 accuracy gains over existing SMVRL EOR method with surprising 30.1% reduced parameters and 35.7% lower computations, establishing our framework as a novel and powerful EAR paradigm.
- Abstract(参考訳): イベントカメラアクション認識(EAR)は、時間運動のダイナミクスが非常に重要である、魅力的なプライバシー保護と効率の利点を提供する。
イベントベースオブジェクト認識(EOR)のための既存の時空間多視点表現学習法(SMVRL)は、空間軸HとWに沿ってH-W-Tイベントを投影することで、有望なソリューションを提供するが、その翻訳変種空間双対表現と、素早い結合融合アーキテクチャによって制限される。
本稿では EAR の鍵となる SMVRL 設計段階を再検討し,提案する。
(i)スパース事象の翻訳不変密度変換による原則時空間多視点表現
(II)異なる視点からの運動特徴間のサンプルワイド相補性をモデル化したデュアルブランチ動的融合アーキテクチャ、及び
三 現実世界の人間の行動の速度変動を模倣したバイオインスパイアされた時間的ワープ増強。
HARDVS、DailyDVS-200、THU-EACT-50-CHLの3つの挑戦的なEARデータセットでは、既存のSMVRL EOR法よりも+7.0%、+10.7%、+10.2%の精度で30.1%のパラメータを削減し、35.7%の低い計算を行い、我々のフレームワークを新しい強力なEARパラダイムとして確立した。
関連論文リスト
- USV: Unified Sparsification for Accelerating Video Diffusion Models [11.011602744993942]
ビデオ拡散モデルのための統一スパシフィケーションは、エンドツーエンドのトレーニング可能なフレームワークである。
モデルの内部計算とサンプリングプロセスの両方でスパーシフィケーションをオーケストレーションする。
最大83.3%のスピードアップと22.7%のエンドツーエンドの加速を実現し、高い視力を維持している。
論文 参考訳(メタデータ) (2025-12-05T14:40:06Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - Efficient Spatial-Temporal Modeling for Real-Time Video Analysis: A Unified Framework for Action Recognition and Object Tracking [0.0]
リアルタイムビデオ分析はコンピュータビジョンにおいて依然として難しい問題である。
本稿では,行動認識と物体追跡を同時に行うために,高度な時空間モデリング技術を活用する統合フレームワークを提案する。
提案手法は,リアルタイムの推論速度を維持しながら,標準ベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-30T06:49:11Z) - Multi-Scale Spectral Attention Module-based Hyperspectral Segmentation in Autonomous Driving Scenarios [3.437245452211197]
本稿では,スペクトル特徴抽出を強化したマルチスケール分光アテンションモジュール(MSAM)を提案する。
MSAMをUNetのスキップ接続(UNet-SC)に統合することにより,提案したUNet-MSAMはセマンティックセグメンテーション性能を大幅に改善する。
論文 参考訳(メタデータ) (2025-06-23T14:24:20Z) - Dual-Path Enhancements in Event-Based Eye Tracking: Augmented Robustness and Adaptive Temporal Modeling [0.0]
イベントベースのアイトラッキングは、拡張現実と人間とコンピュータのインタラクションにとって重要な技術となっている。
既存の方法は、突然の眼球運動や環境騒音といった現実的な課題に苦しむ。
まず、時間シフト、空間的フリップ、イベント削除を組み込んだ堅牢なデータ拡張パイプラインにより、モデルのレジリエンスが向上する。
2つ目は、空間的特徴抽出のための効率的なNet-B3バックボーン、文脈時空間モデリングのための双方向GRU、線形時変状態空間モジュールを組み合わせたハイブリッドアーキテクチャであるKnightPupilを提案する。
論文 参考訳(メタデータ) (2025-04-14T07:57:22Z) - ReCoM: Realistic Co-Speech Motion Generation with Recurrent Embedded Transformer [58.49950218437718]
音声に同期した高忠実で一般化可能な人体動作を生成するための効率的なフレームワークであるReCoMを提案する。
Recurrent Embedded Transformer (RET)は、動的埋め込み正規化(DER)をViT(Vit)コアアーキテクチャに統合する。
モデルロバスト性を高めるため,ノイズ抵抗とクロスドメイン一般化の二重性を持つモデルに,提案したDER戦略を取り入れた。
論文 参考訳(メタデータ) (2025-03-27T16:39:40Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - HALSIE: Hybrid Approach to Learning Segmentation by Simultaneously
Exploiting Image and Event Modalities [6.543272301133159]
イベントカメラは、非同期イベントストリームを生成するためにピクセルごとの強度の変化を検出する。
リアルタイム自律システムにおいて、正確なセマンティックマップ検索のための大きな可能性を秘めている。
イベントセグメンテーションの既存の実装は、サブベースのパフォーマンスに悩まされている。
本研究では,ハイブリット・エンド・エンド・エンドの学習フレームワークHALSIEを提案する。
論文 参考訳(メタデータ) (2022-11-19T17:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。