論文の概要: SRENet: Spectral Re-Entry Network for Point Cloud Action Recognition
- arxiv url: http://arxiv.org/abs/2606.03160v1
- Date: Tue, 02 Jun 2026 05:11:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.770626
- Title: SRENet: Spectral Re-Entry Network for Point Cloud Action Recognition
- Title(参考訳): SRENet: ポイントクラウド行動認識のためのスペクトル再入力ネットワーク
- Authors: Qiuxia Wu, Jiarui Lan, Wenxiong Kang, Zhiyong Wang, Kun Hu,
- Abstract要約: 本研究では,行動認識の周波数視点から,大域的文脈と微粒な動きの時間的ダイナミクスを学習するためのSRENetを提案する。
SRENetは、ポイントクラウドベースのアクション理解における周波数モデリングの有効性を検証し、最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 49.508770157706486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing human actions from point cloud sequences is critical for 3D perception driven applications such as autonomous driving and human-computer interaction. However, the irregular structure and temporal inconsistency of point clouds pose unique challenges for spatio-temporal representation learning, especially in capturing both global motion context and fine-grained temporal dynamics. We propose SRENet, a spectral-aware framework designed to explicitly learn both global context and fine-grained temporal dynamics of motion from a frequency perspective for action recognition. SRENet introduces a Spectral Decomposition Block (SDeBlock) that performs wavelet-based analysis along temporal and spatial axes, disentangling features into low- and high-frequency components with frequency-specific attention. To recover residual dynamics and re-align temporal frequency structures distorted during semantic fusion, a Spectral Re-entry Block (SReBlock) performs secondary temporal decomposition. Furthermore, a spectral-aware learning strategy is devised to enhance discriminability in both frequency subspaces via contrastive loss and a curriculum schedule that gradually shifts focus from low- to high-frequency spaces in line with coarse to detailed motion patterns. Extensive experiments on MSR-Action3D, NTU-RGBD and NTU-RGBD120 demonstrate that SRENet achieves state-of-the-art performance, validating the effectiveness of frequency modeling in point cloud-based action understanding.
- Abstract(参考訳): ポイントクラウドシーケンスからのヒューマンアクションの認識は、自律運転や人間とコンピュータのインタラクションといった3D認識駆動アプリケーションにとって重要である。
しかし、点雲の不規則構造と時間的不整合性は、時空間的表現学習(特に大域的動きコンテキストと微粒な時間的ダイナミクスの両方を捉える)に固有の課題をもたらす。
SRENetは,行動認識の周波数的視点から,大域的文脈と微粒な運動の時間的ダイナミクスの両方を明示的に学習するように設計されたスペクトル認識フレームワークである。
SRENetはスペクトル分解ブロック(SdeBlock)を導入し、時間軸と空間軸に沿ってウェーブレット解析を行い、周波数特異的に注目する低周波成分と高周波成分に分離する。
スペクトル再突入ブロック(SReBlock)は、2次時間分解を行う。
さらに、スペクトル認識学習戦略は、コントラスト損失による両周波数部分空間の識別性の向上と、粗い動きパターンに則って、徐々に低周波空間から高周波空間に焦点を移すカリキュラムスケジュールを考案した。
MSR-Action3D, NTU-RGBD, NTU-RGBD120 に対する大規模な実験により, SRENet が最先端の性能を達成し, ポイントクラウドに基づく行動理解における周波数モデリングの有効性を検証した。
関連論文リスト
- Towards Physically Consistent 4D Scene Reconstruction for Closed-loop Autonomous Driving Simulation [19.055975606481635]
高忠実なストリートシーンの再構築は、エンドツーエンドの自動運転シミュレーションにおいて重要である。
既存の3DGSメソッドとその4D拡張は、両方を同時に達成できない。
空間的識別性を回復するための直交射影勾配(OPG)を提案する。
論文 参考訳(メタデータ) (2026-05-20T11:09:53Z) - Spectral Alignment in Forward-Backward Representations via Temporal Abstraction [18.90573294229263]
前方後方表現は連続空間における後続表現(SR)を学習するための強力なフレームワークを提供する。
基本的なスペクトルミスマッチは、連続環境の高階遷移ダイナミクスとFBアーキテクチャの低階ボトルネックの間にしばしば存在する。
時間的抽象は、高周波スペクトル成分を抑圧する低域通過フィルタとして機能することを示す。
論文 参考訳(メタデータ) (2026-03-20T16:28:33Z) - Unleashing Temporal Capacity of Spiking Neural Networks through Spatiotemporal Separation [67.69345363409835]
スパイキングニューラルネットワーク(SNN)は、時間的処理に自然に適していると考えられており、膜電位の伝播は、コア時間的モデリングメカニズムとして広く見なされている。
我々は, 膜伝播を段階的に段階的に除去する非ステートフル(NS)モデルの設計を行った。
論文 参考訳(メタデータ) (2025-12-05T07:05:53Z) - T3former: Temporal Graph Classification with Topological Machine Learning [4.4924444466378555]
時間グラフ分類は、サイバーセキュリティ、脳接続分析、トラフィック監視などのアプリケーションにおいて重要な役割を果たす。
我々は、スライドウィンドウトポロジカルおよびスペクトルディスクリプタを1級トークンとして活用し、特殊なディスクリプタ・アテンション機構によって統合された新しいトポロジカル・テンポロジカル・トランスフォーマーT3formerを紹介する。
T3formerは、動的ソーシャルネットワーク、脳機能接続データセット、トラフィックネットワークなど、複数のベンチマークで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-15T17:46:32Z) - UST-SSM: Unified Spatio-Temporal State Space Models for Point Cloud Video Modeling [53.199942923818206]
ポイントクラウドビデオは、光と視点の変化の影響を低減しつつ3Dの動きを捉え、微妙で連続した人間の行動を認識するのに非常に効果的である。
SSM(Selective State Space Models)は、線形複雑性を伴うシーケンスモデリングにおいて優れた性能を示す。
我々は,SSMの最新の進歩をクラウドビデオに向け,統一時空間モデル(UST-SSM)を提案する。
論文 参考訳(メタデータ) (2025-08-20T10:46:01Z) - FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。
本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。
FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-29T07:18:28Z) - StPR: Spatiotemporal Preservation and Routing for Exemplar-Free Video Class-Incremental Learning [79.44594332189018]
CIL(Class-Incremental Learning)は、以前取得した知識を使わずに、時間とともに新しいアクションカテゴリを継続的に学習するモデルの開発を目指している。
既存のアプローチでは、メモリとプライバシに関する懸念を忘れたり、あるいは時間的モデリングを無視する静的なイメージベースのメソッドを適用したりする。
本稿では,情報を明示的に切り離して保存する,統一的で非定型なVCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-20T06:46:51Z) - Building a Multi-modal Spatiotemporal Expert for Zero-shot Action Recognition with CLIP [34.88916568947695]
マルチテンポラルダイナミクスを理解するための新しいCLIフレームワークを提案する。
視覚面では,効率的なダイナミック・クロスショット・アテンションを提案する。
セマンティック側では、アクション知識グラフを構築してテキスト拡張を行う。
論文 参考訳(メタデータ) (2024-12-13T06:30:52Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。