論文の概要: Facial Video-based Remote Physiological Measurement via Self-supervised
Learning
- arxiv url: http://arxiv.org/abs/2210.15401v3
- Date: Sat, 22 Jul 2023 07:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 00:39:56.769292
- Title: Facial Video-based Remote Physiological Measurement via Self-supervised
Learning
- Title(参考訳): 自己教師型学習による顔映像を用いた遠隔生理計測
- Authors: Zijie Yue, Miaojing Shi, Shuai Ding
- Abstract要約: 本稿では,映像からr信号を推定する新たなフレームワークを提案する。
負のサンプルは、非線形信号周波数変換を行う学習可能な周波数モジュールを介して生成される。
次に、強化サンプルからr信号を推定するために、局所的なrエキスパートアグリゲーションモジュールを導入する。
異なる顔領域からの相補的な脈動情報を符号化し、それらを1つのr予測に集約する。
- 参考スコア(独自算出の注目度): 9.99375728024877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial video-based remote physiological measurement aims to estimate remote
photoplethysmography (rPPG) signals from human face videos and then measure
multiple vital signs (e.g. heart rate, respiration frequency) from rPPG
signals. Recent approaches achieve it by training deep neural networks, which
normally require abundant facial videos and synchronously recorded
photoplethysmography (PPG) signals for supervision. However, the collection of
these annotated corpora is not easy in practice. In this paper, we introduce a
novel frequency-inspired self-supervised framework that learns to estimate rPPG
signals from facial videos without the need of ground truth PPG signals. Given
a video sample, we first augment it into multiple positive/negative samples
which contain similar/dissimilar signal frequencies to the original one.
Specifically, positive samples are generated using spatial augmentation.
Negative samples are generated via a learnable frequency augmentation module,
which performs non-linear signal frequency transformation on the input without
excessively changing its visual appearance. Next, we introduce a local rPPG
expert aggregation module to estimate rPPG signals from augmented samples. It
encodes complementary pulsation information from different face regions and
aggregate them into one rPPG prediction. Finally, we propose a series of
frequency-inspired losses, i.e. frequency contrastive loss, frequency ratio
consistency loss, and cross-video frequency agreement loss, for the
optimization of estimated rPPG signals from multiple augmented video samples
and across temporally neighboring video samples. We conduct rPPG-based heart
rate, heart rate variability and respiration frequency estimation on four
standard benchmarks. The experimental results demonstrate that our method
improves the state of the art by a large margin.
- Abstract(参考訳): 顔画像に基づく遠隔生理学的測定は、人間の顔ビデオからリモート光胸腺撮影(rPPG)信号を推定し、rPPG信号から複数のバイタルサイン(心拍数、呼吸頻度など)を測定することを目的としている。
最近のアプローチでは、通常、豊富な顔ビデオと同期記録フォトプレチモグラフィ(ppg)信号を必要とするディープニューラルネットワークを訓練することで、これを達成している。
しかし、実際にはこれらの注釈付きコーパスの収集は容易ではない。
本稿では,基礎的な真理PSG信号を必要としない顔画像からrPPG信号を推定する,周波数インスパイアされた自己教師型フレームワークを提案する。
ビデオサンプルが与えられたら、まず、元のサンプルと類似/相似信号周波数を含む複数の正/負のサンプルに拡大する。
具体的には、空間増強を用いて正のサンプルを生成する。
負のサンプルは学習可能な周波数拡張モジュールを介して生成され、視覚の外観を過度に変えることなく入力に対して非線形信号周波数変換を行う。
次に、拡張サンプルからrPPG信号を推定するために、局所的なrPPGエキスパートアグリゲーションモジュールを導入する。
異なる顔領域からの補足的な脈動情報を符号化し、1つのrppg予測に集約する。
最後に,複数の拡張映像から推定されたrppg信号の最適化のために,周波数コントラスト損失,周波数比一貫性損失,ビデオ間周波数整合損失など,周波数にインスパイアされた一連の損失を提案する。
4つの標準ベンチマークでrppgによる心拍数,心拍変動,呼吸周波数の推定を行う。
実験の結果,本手法は芸術の状態を大きなマージンで改善できることが確認された。
関連論文リスト
- Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.480515954528848]
本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文 参考訳(メタデータ) (2024-07-11T13:45:50Z) - SiNC+: Adaptive Camera-Based Vitals with Unsupervised Learning of Periodic Signals [6.458510829614774]
信号回帰のための非競合型教師なし学習フレームワークを初めて提示する。
正常な生理的帯域内におけるスパースパワースペクトルの促進と,周期的な信号の学習にはパワースペクトルのバッチによるばらつきが十分であることがわかった。
論文 参考訳(メタデータ) (2024-04-20T19:17:40Z) - Intra-video Positive Pairs in Self-Supervised Learning for Ultrasound [65.23740556896654]
自己教師付き学習 (SSL) は, 医療画像におけるラベル付きデータの健全性に対処するための戦略である。
本研究では,同じBモード超音波映像をSSLのペアとして用いた近位画像の利用効果について検討した。
この手法は、従来の超音波特異的比較学習法の平均検査精度を新型コロナウイルスの分類で上回り、IVPP(Intra-Video Positive Pairs)と命名された。
論文 参考訳(メタデータ) (2024-03-12T14:57:57Z) - DopUS-Net: Quality-Aware Robotic Ultrasound Imaging based on Doppler
Signal [48.97719097435527]
DopUS-Netはドップラー画像とBモード画像を組み合わせることで、小血管のセグメンテーション精度と堅牢性を高める。
動脈再同定モジュールは、リアルタイムセグメンテーション結果を質的に評価し、拡張ドップラー画像に対するプローブポーズを自動的に最適化する。
論文 参考訳(メタデータ) (2023-05-15T18:19:29Z) - Non-Contrastive Unsupervised Learning of Physiological Signals from
Video [4.8327232174895745]
ラベル付きビデオデータから解放される信号回帰を非コントラスト非教師付き学習フレームワークを提案する。
周期性と有限帯域幅の仮定は最小限であり,本手法では非競合ビデオから直接血液体積パルスを検出することができる。
論文 参考訳(メタデータ) (2023-03-14T14:34:51Z) - Contrast-Phys: Unsupervised Video-based Remote Physiological Measurement
via Spatiotemporal Contrast [17.691683039742323]
遠隔胸部CT(remote Photoplethysmography、r)とも呼ばれる、血液量変化信号を測定するためのビデオベースのリモート生理計測フェイスビデオ
我々は3DCNNモデルを用いて、異なる場所で各ビデオから複数のリズム信号を生成し、同じビデオからのr信号がまとめられ、異なるビデオからのr信号が押し出されながら、対照的な損失でモデルを訓練する。
論文 参考訳(メタデータ) (2022-08-08T19:30:57Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - WPPG Net: A Non-contact Video Based Heart Rate Extraction Network
Framework with Compatible Training Capability [21.33542693986985]
顔の皮膚には、リモートフォトプレシー(r)信号と呼ばれる微妙な色の変化があり、そこから被験者の心拍数を抽出できる。
近年,r信号抽出に関する多くの深層学習手法と関連するデータセットが提案されている。
しかしながら,BVP信号などのラベル波は,我々の体内を流れる時間と他の要因により,実際のr信号に不確実な遅延がある。
本稿では、r信号とラベル波のリズムと周期性に関する共通特性を解析することにより、これらのネットワークを包み、トレーニング時に効率を保ち続けるためのトレーニング手法を提案する。
論文 参考訳(メタデータ) (2022-07-04T19:52:30Z) - Identifying Rhythmic Patterns for Face Forgery Detection and
Categorization [46.21354355137544]
本研究では, PPG信号に対する空間時間フィルタリングネットワーク (STFNet) と, PPG信号の制約と相互作用のための空間時間インタラクションネットワーク (STINet) からなる顔偽造検出と分類のためのフレームワークを提案する。
フォージェリーメソッドの生成に関する知見を得て,フレームワークの性能を高めるために,イントラソースとイントラソースのブレンディングを提案する。
論文 参考訳(メタデータ) (2022-07-04T04:57:06Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Video-based Remote Physiological Measurement via Cross-verified Feature
Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。
次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。
歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文 参考訳(メタデータ) (2020-07-16T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。