論文の概要: Periodic-MAE: Periodic Video Masked Autoencoder for rPPG Estimation
- arxiv url: http://arxiv.org/abs/2506.21855v1
- Date: Fri, 27 Jun 2025 02:18:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.052181
- Title: Periodic-MAE: Periodic Video Masked Autoencoder for rPPG Estimation
- Title(参考訳): 周期MAE:rPPG推定のための周期ビデオマスクオートエンコーダ
- Authors: Jiho Choi, Sang Jun Lee,
- Abstract要約: 本研究では,肌の色調の微妙な変化を経時的に捉え,顔画像から周期的な信号の一般的な表現を学習する手法を提案する。
提案手法をPURE, U-BFCr, MMPD, V-BFC4Vデータセット上で評価した。
その結果,特にクロスデータセット評価の課題において,大幅な性能向上が見られた。
- 参考スコア(独自算出の注目度): 6.32655874508904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a method that learns a general representation of periodic signals from unlabeled facial videos by capturing subtle changes in skin tone over time. The proposed framework employs the video masked autoencoder to learn a high-dimensional spatio-temporal representation of the facial region through self-supervised learning. Capturing quasi-periodic signals in the video is crucial for remote photoplethysmography (rPPG) estimation. To account for signal periodicity, we apply frame masking in terms of video sampling, which allows the model to capture resampled quasi-periodic signals during the pre-training stage. Moreover, the framework incorporates physiological bandlimit constraints, leveraging the property that physiological signals are sparse within their frequency bandwidth to provide pulse cues to the model. The pre-trained encoder is then transferred to the rPPG task, where it is used to extract physiological signals from facial videos. We evaluate the proposed method through extensive experiments on the PURE, UBFC-rPPG, MMPD, and V4V datasets. Our results demonstrate significant performance improvements, particularly in challenging cross-dataset evaluations. Our code is available at https://github.com/ziiho08/Periodic-MAE.
- Abstract(参考訳): 本稿では,肌の色調の微妙な変化を時間とともに捉え,ラベルのない顔画像から周期的な信号の一般的な表現を学習する手法を提案する。
提案フレームワークは,自己教師型学習を通じて顔領域の高次元時空間表現を学習するために,ビデオマスク付きオートエンコーダを用いる。
ビデオ中の準周期信号のキャプチャは、リモート光胸腺撮影(rPPG)推定に不可欠である。
信号周期性を考慮し,ビデオサンプリングの観点でフレームマスキングを適用し,事前学習段階におけるサンプル準周期信号の取得を可能にする。
さらに、このフレームワークは、生理的帯域制限を取り入れ、生理的信号が周波数帯域内でスパースであるという特性を利用して、モデルにパルスキューを提供する。
訓練済みのエンコーダは、rPPGタスクに転送され、顔ビデオから生理的信号を抽出するために使用される。
提案手法は,PURE,UBFC-rPPG,MMPD,V4Vデータセットの広範な実験により評価される。
その結果,特にクロスデータセット評価の課題において,大幅な性能向上が見られた。
私たちのコードはhttps://github.com/ziiho08/Periodic-MAE.comで公開されています。
関連論文リスト
- PSDNorm: Test-Time Temporal Normalization for Deep Learning in Sleep Staging [63.05435596565677]
我々は,モンジュマッピングと時間文脈を利用したPSDNormを提案し,信号の深層学習モデルにおける特徴写像の正規化を行う。
PSDNormは、BatchNormよりも4倍のデータ効率が高く、目に見えない左のデータセットで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-03-06T16:20:25Z) - SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.480515954528848]
本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文 参考訳(メタデータ) (2024-07-11T13:45:50Z) - SiNC+: Adaptive Camera-Based Vitals with Unsupervised Learning of Periodic Signals [6.458510829614774]
信号回帰のための非競合型教師なし学習フレームワークを初めて提示する。
正常な生理的帯域内におけるスパースパワースペクトルの促進と,周期的な信号の学習にはパワースペクトルのバッチによるばらつきが十分であることがわかった。
論文 参考訳(メタデータ) (2024-04-20T19:17:40Z) - SVFormer: Semi-supervised Video Transformer for Action Recognition [88.52042032347173]
SVFormerは、未ラベルの動画サンプルに対処するために、安定した擬似ラベルフレームワークを採用する。
さらに,ビデオの複雑な時間変動をカバーするための時間ゆらぎを提案する。
特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回っている。
論文 参考訳(メタデータ) (2022-11-23T18:58:42Z) - Facial Video-based Remote Physiological Measurement via Self-supervised
Learning [9.99375728024877]
本稿では,映像からr信号を推定する新たなフレームワークを提案する。
負のサンプルは、非線形信号周波数変換を行う学習可能な周波数モジュールを介して生成される。
次に、強化サンプルからr信号を推定するために、局所的なrエキスパートアグリゲーションモジュールを導入する。
異なる顔領域からの相補的な脈動情報を符号化し、それらを1つのr予測に集約する。
論文 参考訳(メタデータ) (2022-10-27T13:03:23Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。