論文の概要: Self-supervised One-Stage Learning for RF-based Multi-Person Pose Estimation
- arxiv url: http://arxiv.org/abs/2506.05420v1
- Date: Thu, 05 Jun 2025 00:40:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.147512
- Title: Self-supervised One-Stage Learning for RF-based Multi-Person Pose Estimation
- Title(参考訳): RFを用いたマルチパーソン・ポーズ推定のための自己教師付きワンステージ学習
- Authors: Seunghwan Shin, Yusung Kim,
- Abstract要約: 本稿では,生のRF信号に基づく,効率的で軽量なMPPEモデルを提案する。
RF信号のサブグループ化と共有単層CNNによる埋め込みとマルチヘッドアテンションにより、このモデルは従来の手法よりも優れていた。
本モデルでは,従来の生RF信号を用いた手法と比較して,最大15個のPCKh@0.5のMPPE精度を向上する。
- 参考スコア(独自算出の注目度): 1.4182672294839365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of Multi-Person Pose Estimation (MPPE), Radio Frequency (RF)-based methods can operate effectively regardless of lighting conditions and obscured line-of-sight situations. Existing RF-based MPPE methods typically involve either 1) converting RF signals into heatmap images through complex preprocessing, or 2) applying a deep embedding network directly to raw RF signals. The first approach, while delivering decent performance, is computationally intensive and time-consuming. The second method, though simpler in preprocessing, results in lower MPPE accuracy and generalization performance. This paper proposes an efficient and lightweight one-stage MPPE model based on raw RF signals. By sub-grouping RF signals and embedding them using a shared single-layer CNN followed by multi-head attention, this model outperforms previous methods that embed all signals at once through a large and deep CNN. Additionally, we propose a new self-supervised learning (SSL) method that takes inputs from both one unmasked subgroup and the remaining masked subgroups to predict the latent representations of the masked data. Empirical results demonstrate that our model improves MPPE accuracy by up to 15 in PCKh@0.5 compared to previous methods using raw RF signals. Especially, the proposed SSL method has shown to significantly enhance performance improvements when placed in new locations or in front of obstacles at RF antennas, contributing to greater performance gains as the number of people increases. Our code and dataset is open at Github. https://github.com/sshnan7/SOSPE .
- Abstract(参考訳): マルチパーソンポース推定(MPPE)の分野では、照明条件や視線不明瞭な状況によらず、RF(Radio Frequency)ベースの手法が効果的に動作する。
既存のRFベースのMPPE法は、通常どちらの方法も含む。
1)RF信号を複素前処理によるヒートマップ画像に変換するか
2)生のRF信号にディープ埋め込みネットワークを直接適用する。
最初のアプローチは、まともなパフォーマンスを提供する一方で、計算集約的で時間を要する。
第2の方法は前処理では単純だが,MPPEの精度が低下し,一般化性能が低下する。
本稿では,生のRF信号に基づく,効率的で軽量なMPPEモデルを提案する。
RF信号のサブグループ化と共有単層CNNによる埋め込みにより、このモデルは、大規模で深いCNNを介して全ての信号を一度に埋め込む従来の手法よりも優れている。
さらに,マスク付きデータの潜在表現を予測するために,マスク付きサブグループとマスク付きサブグループの両方から入力を受信する自己教師付き学習(SSL)手法を提案する。
その結果,PCKh@0.5におけるMPPEの精度は,従来のRF信号を用いた手法と比較して最大15倍向上した。
特に,提案手法は,新しい位置やRFアンテナの障害物前における性能向上に寄与し,人数の増加に伴い性能向上に寄与している。
コードとデータセットはGithubで公開されている。
https://github.com/sshnan7/SOSPE
関連論文リスト
- High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - Residual Channel Boosts Contrastive Learning for Radio Frequency Fingerprint Identification [17.98760668117099]
本稿では、RFFI(Radio Frequency Fingerprint Identification)のための残留チャネルに基づくデータ拡張戦略を提案する。
提案手法は,より少ないサンプルと少ない時間で,特徴抽出能力と一般化能力の両方を著しく向上させることを示す。
論文 参考訳(メタデータ) (2024-12-12T02:48:20Z) - FreSh: Frequency Shifting for Accelerated Neural Representation Learning [11.175745750843484]
Inlicit Neural Representations (INR) は、画像、ビデオ、三次元形状などの信号を多層パーセプトロン(MLP)を用いて連続的に表現するための強力なアプローチとして近年注目されている。
低周波の詳細は低周波バイアスを示し、高周波の詳細を正確に捉える能力を制限することが知られている。
本稿では、初期出力の周波数スペクトルと目標信号の周波数スペクトルを一致させる周波数シフト(FreSh)を提案する。
論文 参考訳(メタデータ) (2024-10-07T14:05:57Z) - Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。
我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文 参考訳(メタデータ) (2024-09-16T15:10:07Z) - LeRF: Learning Resampling Function for Adaptive and Efficient Image Interpolation [64.34935748707673]
最近のディープニューラルネットワーク(DNN)は、学習データ前処理を導入することで、パフォーマンスを著しく向上させた。
本稿では,DNNが学習した構造的前提と局所的連続仮定の両方を活かした学習再サンプリング(Learning Resampling, LeRF)を提案する。
LeRFは空間的に異なる再サンプリング関数を入力画像ピクセルに割り当て、ニューラルネットワークを用いてこれらの再サンプリング関数の形状を予測する。
論文 参考訳(メタデータ) (2024-07-13T16:09:45Z) - SIRST-5K: Exploring Massive Negatives Synthesis with Self-supervised
Learning for Robust Infrared Small Target Detection [53.19618419772467]
単一フレーム赤外線小ターゲット検出(SIRST)は、乱雑な背景から小さなターゲットを認識することを目的としている。
Transformerの開発に伴い、SIRSTモデルのスケールは常に増大している。
赤外線小ターゲットデータの多彩な多様性により,本アルゴリズムはモデル性能と収束速度を大幅に改善する。
論文 参考訳(メタデータ) (2024-03-08T16:14:54Z) - Disentangled Representation Learning for RF Fingerprint Extraction under
Unknown Channel Statistics [77.13542705329328]
本稿では,まず,不整合表現学習(DRL)の枠組みを提案し,入力信号を逆学習によりデバイス関連成分とデバイス関連成分に分解する。
提案フレームワークにおける暗黙的なデータ拡張は、デバイス非関連チャネル統計の過度な適合を避けるために、RFF抽出器に正規化を課す。
実験により、DR-RFFと呼ばれる提案手法は、未知の複雑な伝播環境に対する一般化可能性の観点から従来の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-08-04T15:46:48Z) - New SAR target recognition based on YOLO and very deep multi-canonical
correlation analysis [0.1503974529275767]
本稿では,異なるCNN層から有効な特徴を適応的に融合させることにより,SAR画像ターゲット分類のためのロバストな特徴抽出手法を提案する。
MSTARデータセットの実験により,提案手法が最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2021-10-28T18:10:26Z) - Estimation of Camera Response Function using Prediction Consistency and
Gradual Refinement with an Extension to Deep Learning [42.70498574189067]
一つの画像からCRFを推定するための既存の手法は、一般的な実画像を扱うのに失敗する。
予測一貫性と漸進的改善を用いた非深層学習手法を提案する。
本手法は,日中・夜間の実画像に対して,既存の単一画像法よりも優れる。
論文 参考訳(メタデータ) (2020-10-08T14:19:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。