論文の概要: SkeFi: Cross-Modal Knowledge Transfer for Wireless Skeleton-Based Action Recognition
- arxiv url: http://arxiv.org/abs/2601.12432v1
- Date: Sun, 18 Jan 2026 14:39:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.627067
- Title: SkeFi: Cross-Modal Knowledge Transfer for Wireless Skeleton-Based Action Recognition
- Title(参考訳): SkeFi:無線骨格に基づく行動認識のためのクロスモーダル知識伝達
- Authors: Shunyu Huang, Yunjiao Zhou, Jianfei Yang,
- Abstract要約: 既存のソリューションでは、RGBカメラを使用して骨格キーポイントをアノテートするが、そのパフォーマンスは暗い環境で低下し、プライバシーの懸念が高まる。
本稿では,これらの課題を軽減するために,非侵襲型無線センサ,すなわちLiDARとmmWaveについて検討する。
実験により、SkeFi は mmWave および LiDAR 上での最先端の性能を実現することが示された。
- 参考スコア(独自算出の注目度): 20.020503149009787
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Skeleton-based action recognition leverages human pose keypoints to categorize human actions, which shows superior generalization and interoperability compared to regular end-to-end action recognition. Existing solutions use RGB cameras to annotate skeletal keypoints, but their performance declines in dark environments and raises privacy concerns, limiting their use in smart homes and hospitals. This paper explores non-invasive wireless sensors, i.e., LiDAR and mmWave, to mitigate these challenges as a feasible alternative. Two problems are addressed: (1) insufficient data on wireless sensor modality to train an accurate skeleton estimation model, and (2) skeletal keypoints derived from wireless sensors are noisier than RGB, causing great difficulties for subsequent action recognition models. Our work, SkeFi, overcomes these gaps through a novel cross-modal knowledge transfer method acquired from the data-rich RGB modality. We propose the enhanced Temporal Correlation Adaptive Graph Convolution (TC-AGC) with frame interactive enhancement to overcome the noise from missing or inconsecutive frames. Additionally, our research underscores the effectiveness of enhancing multiscale temporal modeling through dual temporal convolution. By integrating TC-AGC with temporal modeling for cross-modal transfer, our framework can extract accurate poses and actions from noisy wireless sensors. Experiments demonstrate that SkeFi realizes state-of-the-art performances on mmWave and LiDAR. The code is available at https://github.com/Huang0035/Skefi.
- Abstract(参考訳): 骨格に基づく行動認識は、人間のポーズキーポイントを利用して人間の行動を分類し、通常のエンドツーエンドの行動認識よりも優れた一般化と相互運用性を示す。
既存のソリューションでは、RGBカメラを使って骨格キーポイントに注釈を付けるが、そのパフォーマンスは暗い環境で低下し、プライバシー上の懸念が高まり、スマートホームや病院での使用が制限される。
本稿では,LiDARやmmWaveなどの非侵襲型無線センサを探索し,これらの課題を現実的な代替手段として軽減する。
1) 正確な骨格推定モデルを訓練するための無線センサのモダリティに関する不十分なデータと,(2) 無線センサから得られる骨格キーポイントがRGBよりもノイズが大きいため,その後の行動認識モデルに大きな困難が生じる。
我々の研究であるSkeFiは、データリッチなRGBモダリティから得られた新しいクロスモーダルな知識伝達手法により、これらのギャップを克服する。
本稿では,フレームの対話的拡張による時間相関適応グラフ畳み込み (TC-AGC) を提案する。
さらに,2重時間畳み込みによるマルチスケール時間モデリングの有効性について検討した。
TC-AGCと時間モデルを組み合わせることで、ノイズの多い無線センサから正確なポーズや動作を抽出できる。
実験により、SkeFi は mmWave および LiDAR 上での最先端の性能を実現することが示された。
コードはhttps://github.com/Huang0035/Skefi.comで入手できる。
関連論文リスト
- milliMamba: Specular-Aware Human Pose Estimation via Dual mmWave Radar with Multi-Frame Mamba Fusion [24.89937570181235]
本稿では,レーダを用いた2次元人間のポーズ推定フレームワークを提案する。
我々はCross-View Fusion Mambaを使って、長いシーケンスから効率的に特徴を抽出する。
また、トレーニング中に標準的なキーポイントロスと並行してベロシティロスを組み込む。
論文 参考訳(メタデータ) (2025-12-23T07:40:25Z) - FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [92.4205087439928]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。
自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。
PSTは、画像基盤モデルとの遅延空間アライメントによるクロスモーダルな知識伝達を確立し、データ不足を効果的に軽減する。
FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
この組み合わせのアプローチにより、FUSEはターゲットデータセットに対する軽量デコーダ適応のみを必要とするユニバーサルなイメージイベントを構築することができる。
論文 参考訳(メタデータ) (2025-03-25T15:04:53Z) - STeInFormer: Spatial-Temporal Interaction Transformer Architecture for Remote Sensing Change Detection [5.4610555622532475]
マルチ時間特徴抽出のための時空間相互作用変換器アーキテクチャSTeInFormerを提案する。
また、RSCDのスペクトル情報を提供する周波数領域機能を統合するためのパラメータフリー多周波トークンミキサーを提案する。
論文 参考訳(メタデータ) (2024-12-23T03:40:04Z) - WiFi-TCN: Temporal Convolution for Human Interaction Recognition based
on WiFi signal [4.0773490083614075]
近年,Wi-Fiによる人間活動認識が注目されている。
Wi-FiベースのHARにまつわる課題は、シーンや被写体が変化するときのパフォーマンスが著しく低下することである。
本稿では,TN-AAと呼ばれる時間的畳み込みネットワークを利用した新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-21T08:37:32Z) - DynImp: Dynamic Imputation for Wearable Sensing Data Through Sensory and
Temporal Relatedness [78.98998551326812]
従来の手法では、データの時系列ダイナミクスと、異なるセンサーの特徴の関連性の両方をめったに利用していない、と我々は主張する。
我々はDynImpと呼ばれるモデルを提案し、特徴軸に沿って近接する隣人と異なる時間点の欠如を扱う。
本手法は, 関連センサのマルチモーダル性特性を活かし, 履歴時系列のダイナミックスから学習し, 極端に欠落した状態でデータを再構築することができることを示す。
論文 参考訳(メタデータ) (2022-09-26T21:59:14Z) - Joint-bone Fusion Graph Convolutional Network for Semi-supervised
Skeleton Action Recognition [65.78703941973183]
本稿では,CD-JBF-GCNをエンコーダとし,ポーズ予測ヘッドをデコーダとして使用する新しい相関駆動型ジョイントボーン・フュージョングラフ畳み込みネットワークを提案する。
具体的には、CD-JBF-GCは、関節ストリームと骨ストリームの間の運動伝達を探索することができる。
自己教師型トレーニング段階におけるポーズ予測に基づくオートエンコーダにより、未ラベルデータから動作表現を学習することができる。
論文 参考訳(メタデータ) (2022-02-08T16:03:15Z) - MDPose: Human Skeletal Motion Reconstruction Using WiFi Micro-Doppler
Signatures [4.92674421365689]
WiFiマイクロドップラーシグネチャに基づくヒト骨格運動再建のための新しいフレームワークであるMDPoseを提案する。
17個のキーポイントを持つ骨格モデルを再構築することで、人間の活動を追跡する効果的なソリューションを提供する。
MDPoseは最先端のRFベースのポーズ推定システムより優れている。
論文 参考訳(メタデータ) (2022-01-11T21:46:28Z) - Cross-modal Knowledge Distillation for Vision-to-Sensor Action
Recognition [12.682984063354748]
本研究では、VSKDフレームワークをエンドツーエンドで導入する。
このVSKDフレームワークでは、テストフェーズ中にウェアラブルデバイスから必要となるのは時系列データ(加速度計データ)のみである。
このフレームワークは、エッジデバイスに対する計算要求を減らすだけでなく、計算コストのかかるマルチモーダルアプローチのパフォーマンスと密に一致した学習モデルも生成する。
論文 参考訳(メタデータ) (2021-10-08T15:06:38Z) - Feeling of Presence Maximization: mmWave-Enabled Virtual Reality Meets
Deep Reinforcement Learning [76.46530937296066]
本稿では,無線モバイルユーザに対して,超信頼性でエネルギー効率のよいバーチャルリアリティ(VR)体験を提供するという課題について検討する。
モバイルユーザへの信頼性の高い超高精細ビデオフレーム配信を実現するために,コーディネートマルチポイント(CoMP)伝送技術とミリ波(mmWave)通信を利用する。
論文 参考訳(メタデータ) (2021-06-03T08:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。