論文の概要: HoloEv-Net: Efficient Event-based Action Recognition via Holographic Spatial Embedding and Global Spectral Gating
- arxiv url: http://arxiv.org/abs/2602.04182v1
- Date: Wed, 04 Feb 2026 03:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.356764
- Title: HoloEv-Net: Efficient Event-based Action Recognition via Holographic Spatial Embedding and Global Spectral Gating
- Title(参考訳): HoloEv-Net: ホログラフィ空間埋め込みとグローバルスペクトルゲーティングによる効率的なイベントベース行動認識
- Authors: Weidong Hao,
- Abstract要約: イベントベース行動認識(EAR)は,高時間分解能と高ダイナミックレンジのイベントカメラにより注目されている。
既存の手法は, (i) 密度ボクセル表現の計算冗長性, (ii) マルチブランチアーキテクチャに固有の構造冗長性, (iii) グローバルな動きパターンを捉えるためのスペクトル情報の未利用性に悩まされている。
- 参考スコア(独自算出の注目度): 0.571097144710995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event-based Action Recognition (EAR) has attracted significant attention due to the high temporal resolution and high dynamic range of event cameras. However, existing methods typically suffer from (i) the computational redundancy of dense voxel representations, (ii) structural redundancy inherent in multi-branch architectures, and (iii) the under-utilization of spectral information in capturing global motion patterns. To address these challenges, we propose an efficient EAR framework named HoloEv-Net. First, to simultaneously tackle representation and structural redundancies, we introduce a Compact Holographic Spatiotemporal Representation (CHSR). Departing from computationally expensive voxel grids, CHSR implicitly embeds horizontal spatial cues into the Time-Height (T-H) view, effectively preserving 3D spatiotemporal contexts within a 2D representation. Second, to exploit the neglected spectral cues, we design a Global Spectral Gating (GSG) module. By leveraging the Fast Fourier Transform (FFT) for global token mixing in the frequency domain, GSG enhances the representation capability with negligible parameter overhead. Extensive experiments demonstrate the scalability and effectiveness of our framework. Specifically, HoloEv-Net-Base achieves state-of-the-art performance on THU-EACT-50-CHL, HARDVS and DailyDVS-200, outperforming existing methods by 10.29%, 1.71% and 6.25%, respectively. Furthermore, our lightweight variant, HoloEv-Net-Small, delivers highly competitive accuracy while offering extreme efficiency, reducing parameters by 5.4 times, FLOPs by 300times, and latency by 2.4times compared to heavy baselines, demonstrating its potential for edge deployment.
- Abstract(参考訳): イベントベース行動認識(EAR)は,高時間分解能と高ダイナミックレンジのイベントカメラにより注目されている。
しかし、既存の手法は一般的に苦しむ。
i)密度ボクセル表現の計算冗長性
二 マルチブランチアーキテクチャに固有の構造的冗長性及び
三 グローバルな動きのパターンを捉えるためのスペクトル情報の未利用
これらの課題に対処するため,HoloEv-Netという効率的なEARフレームワークを提案する。
まず、表現と構造的冗長性に同時に取り組むために、コンパクトホログラフィック時空間表現(CHSR)を導入する。
計算コストのかかるボクセルグリッドとは別に、CHSRは水平空間キューを時間-高さ(T-H)ビューに暗黙的に埋め込み、2次元表現内の3次元時空間を効果的に保存する。
第二に、無視されたスペクトルキューを利用するために、Global Spectral Gating (GSG)モジュールを設計する。
周波数領域のグローバルトークン混合にFFT(Fast Fourier Transform)を利用することで、GSGはパラメータオーバーヘッドを無視できる表現能力を向上する。
大規模な実験は、我々のフレームワークのスケーラビリティと有効性を示します。
具体的には、HoloEv-Net-BaseはTHU-EACT-50-CHL、HARDVS、DailyDVS-200の最先端のパフォーマンスを達成し、既存のメソッドをそれぞれ10.29%、 1.71%、 6.25%で上回っている。
さらに、私たちの軽量版であるHoloEv-Net-Smallは、極端な効率を提供しながら、非常に競争力のある精度を提供し、パラメータを5.4倍、FLOPを300倍、レイテンシを2.4倍に削減し、エッジデプロイメントの可能性を示しています。
関連論文リスト
- EFSI-DETR: Efficient Frequency-Semantic Integration for Real-Time Small Object Detection in UAV Imagery [10.339425380819513]
EFSI-DETRは、効率的な意味的特徴強調と動的周波数空間誘導を統合する新しい検出フレームワークである。
VisDrone と CODrone のベンチマーク実験により,我々の EFSI-DETR が実時間効率で最先端の性能を達成することを示した。
論文 参考訳(メタデータ) (2026-01-26T15:41:37Z) - SMV-EAR: Bring Spatiotemporal Multi-View Representation Learning into Efficient Event-Based Action Recognition [4.322175390073132]
イベント行動認識(EAR)は、時間運動力学が非常に重要となるプライバシー保護と効率の利点を提供する。
本稿では EAR の鍵となる SMVRL 設計段階を再検討し,スパースイベントの変換不変密度変換による多視点表現を提案する。
既存のSMVRL EOR法よりもTop-1の精度が向上し、パラメータが30.1%減少し、計算量が30.2%減少し、我々のフレームワークは新しい強力なEARパラダイムとして確立された。
論文 参考訳(メタデータ) (2026-01-24T09:24:42Z) - Ultra3D: Efficient and High-Fidelity 3D Generation with Part Attention [54.15345846343084]
品質を損なうことなくスパースボクセルモデリングを大幅に高速化する,効率的な3D生成フレームワークであるUltra3Dを提案する。
部分注意(Part Attention)は、意味的に一貫した部分領域内での注意計算を制限する幾何学的な局所的注意機構である。
実験により、Ultra3Dは1024の解像度で高解像度の3D生成をサポートし、視覚的忠実度とユーザの好みの両方で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-23T17:57:16Z) - LoLA-SpecViT: Local Attention SwiGLU Vision Transformer with LoRA for Hyperspectral Imaging [6.360399841791849]
軽量なスペクトルビジョン変換器であるtextbfLoLA-SpecViT (Low-rank adaptation Local Attention Spectral Vision Transformer) を提案する。
提案モデルでは,3次元畳み込みスペクトルフロントエンドと局所窓ベースの自己アテンションを組み合わせ,スペクトル特徴抽出と空間一貫性の両立を図る。
我々のフレームワークは、農業、環境モニタリング、リモートセンシング分析における実世界のHSIアプリケーションに対して、スケーラブルで一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-06-21T16:46:00Z) - FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。
既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。
本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文 参考訳(メタデータ) (2025-06-17T02:33:42Z) - Latent Wavelet Diffusion For Ultra-High-Resolution Image Synthesis [56.311477476580926]
超高分解能(2K-4K)画像合成におけるディテールとテクスチャの忠実度を大幅に向上させる軽量トレーニングフレームワークであるLatent Wavelet Diffusion (LWD)を提案する。
LWDはウェーブレットエネルギーマップから導かれる新しい周波数対応マスキング戦略を導入し、潜在空間の詳細な領域にトレーニングプロセスを動的に焦点をあてる。
論文 参考訳(メタデータ) (2025-05-31T07:28:32Z) - Hyperspectral Image Super-Resolution via Dual-domain Network Based on
Hybrid Convolution [6.3814314790000415]
本稿ではハイブリッド畳み込み(SRDNet)に基づく新しいHSI超解像アルゴリズムを提案する。
スペクトル間自己相似性を捉えるため、空間領域に自己注意学習機構(HSL)を考案する。
HSIの知覚品質をさらに向上するため、周波数領域のモデルを最適化するために周波数損失(HFL)を導入した。
論文 参考訳(メタデータ) (2023-04-10T13:51:28Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。