論文の概要: Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment
- arxiv url: http://arxiv.org/abs/2510.13390v1
- Date: Wed, 15 Oct 2025 10:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.623053
- Title: Generalizing WiFi Gesture Recognition via Large-Model-Aware Semantic Distillation and Alignment
- Title(参考訳): 大規模モデル対応セマンティック蒸留とアライメントによるWiFiジェスチャー認識の一般化
- Authors: Feng-Qi Cui, Yu-Tong Guo, Tianyue Zheng, Jinyang Huang,
- Abstract要約: WiFiベースのジェスチャー認識は、AIoT環境において有望なRFセンシングパラダイムとして登場した。
本稿では,大規模モデル対応セマンティック蒸留・アライメントと呼ばれる新しい一般化フレームワークを提案する。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
- 参考スコア(独自算出の注目度): 6.124050993047708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: WiFi-based gesture recognition has emerged as a promising RF sensing paradigm for enabling non-contact and privacy-preserving human-computer interaction in AIoT environments. However, existing methods often suffer from limited generalization and semantic expressiveness due to the domain-sensitive nature of Channel State Information and the lack of high-level gesture abstraction. To address these challenges, we propose a novel generalization framework, termed Large-Model-Aware Semantic Distillation and Alignment (GLSDA), which leverages the semantic prior of pre-trained large foundation models to enhance gesture representation learning in both in-domain and cross-domain scenarios. Specifically, we first design a dual-path CSI encoding pipeline that captures geometric and dynamic gesture patterns via CSI-Ratio phase sequences and Doppler spectrograms. These representations are then fed into a Multiscale Semantic Encoder, which learns robust temporal embeddings and aligns them with gesture semantics through cross-modal attention mechanisms. To further enhance category discrimination, we introduce a Semantic-Aware Soft Supervision scheme that encodes inter-class correlations and reduces label ambiguity, especially for semantically similar gestures. Finally, we develop a Robust Dual-Distillation strategy to compress the aligned model into a lightweight student network, jointly distilling intermediate features and semantic-informed soft labels from the teacher model. Extensive experiments on the Widar3.0 benchmark show that GLSDA consistently outperforms state-of-the-art methods in both in-domain and cross-domain gesture recognition tasks, while significantly reducing model size and inference latency. Our method offers a scalable and deployable solution for generalized RF-based gesture interfaces in real-world AIoT applications.
- Abstract(参考訳): WiFiベースのジェスチャー認識は、AIoT環境での非接触性とプライバシ保護による人間とコンピュータのインタラクションを可能にするための、有望なRFセンシングパラダイムとして登場した。
しかし、既存の手法は、チャネル状態情報のドメイン依存性やハイレベルなジェスチャ抽象化の欠如により、限定的な一般化と意味表現に悩まされることが多い。
これらの課題に対処するため,我々はGLSDA(Large-Model-Aware Semantic Distillation and Alignment)と呼ばれる新しい一般化フレームワークを提案する。
具体的には、まず、CSI-Ratio位相列とドップラー分光図を用いて幾何学的および動的ジェスチャーパターンをキャプチャするデュアルパスCSI符号化パイプラインを設計する。
これらの表現はその後Multiscale Semantic Encoderに入力され、ロバストな時間埋め込みを学習し、モーダルなアテンション機構を通じてジェスチャセマンティクスと整合する。
カテゴリー識別をさらに強化するために,クラス間の相関を符号化し,ラベルのあいまいさを低減するセマンティック・アウェア・ソフト・スーパービジョン方式を導入する。
最後に,教師モデルから中間的特徴と意味インフォームド・ソフトラベルを共同で蒸留し,整列モデルを軽量な学生ネットワークに圧縮するロバスト二重蒸留法を開発した。
Widar3.0ベンチマークの大規模な実験によると、GLSDAはドメイン内およびドメイン間ジェスチャ認識タスクにおいて、最先端のメソッドを一貫して上回り、モデルサイズと推論遅延を著しく低減している。
本手法は,実世界のAIoTアプリケーションにおいて,一般化されたRFベースのジェスチャーインタフェースに対して,スケーラブルでデプロイ可能なソリューションを提供する。
関連論文リスト
- LUMA: Low-Dimension Unified Motion Alignment with Dual-Path Anchoring for Text-to-Motion Diffusion Model [18.564067196226436]
本稿では,2経路アンカーを組み込んだテキスト・ツー・モーション拡散モデルを提案し,セマンティックアライメントを強化する。
FIDスコアはそれぞれ0.035と0.123である。
論文 参考訳(メタデータ) (2025-09-29T17:58:28Z) - Wavelet-Guided Dual-Frequency Encoding for Remote Sensing Change Detection [67.84730634802204]
リモートセンシング画像の変化検出は,自然災害監視,都市拡張追跡,インフラ管理など,さまざまな工学的応用において重要な役割を担っている。
既存のほとんどの手法は空間領域モデリングに依存しており、特徴表現の限られた多様性は微妙な変化領域の検出を妨げる。
本研究では、特にウェーブレット領域における周波数領域の特徴モデリングが周波数成分の微細な違いを増幅し、空間領域において捉えにくいエッジ変化の知覚を高めることを観察する。
論文 参考訳(メタデータ) (2025-08-07T11:14:16Z) - Wi-CBR: Salient-aware Adaptive WiFi Sensing for Cross-domain Behavior Recognition [8.028748052177146]
クロスドメイン行動認識(Wi-CBR)のための適応型Wi-Fiセンシングを提案する。
具体的には、クロスドメイン行動認識(Wi-CBR)のための適応型適応WiFiセンシングを提案する。
論文 参考訳(メタデータ) (2025-06-13T09:38:57Z) - DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。
一般化を強化するために2つの補完正則化戦略を統合する。
さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-05-26T00:14:52Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - Without Paired Labeled Data: End-to-End Self-Supervised Learning for Drone-view Geo-Localization [20.603433987118837]
ドローンビュージオローカライゼーション(DVGL)は、GPSタグ付き衛星画像を取得することで、ドローンの正確なローカライゼーションを実現することを目的としている。
既存の手法は、教師あり学習のために、厳密にペアリングされたドローン衛星画像に大きく依存している。
浅いバックボーンネットワークを用いたエンドツーエンドの自己教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T02:53:08Z) - Agent-driven Generative Semantic Communication with Cross-Modality and Prediction [57.335922373309074]
本稿では,強化学習に基づくエージェント駆動型ジェネリックセマンティックコミュニケーションフレームワークを提案する。
本研究では, エージェント支援型セマンティックエンコーダを開発し, 適応的セマンティック抽出とサンプリングを行う。
設計モデルの有効性をUA-DETRACデータセットを用いて検証し、全体的なA-GSCフレームワークの性能向上を実証した。
論文 参考訳(メタデータ) (2024-04-10T13:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。