Fugu-MT 論文翻訳(概要): Facial Video-based Remote Physiological Measurement via Self-supervised Learning

論文の概要: Facial Video-based Remote Physiological Measurement via Self-supervised Learning

arxiv url: http://arxiv.org/abs/2210.15401v3
Date: Sat, 22 Jul 2023 07:21:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-26 00:39:56.769292
Title: Facial Video-based Remote Physiological Measurement via Self-supervised Learning
Title（参考訳）: 自己教師型学習による顔映像を用いた遠隔生理計測
Authors: Zijie Yue, Miaojing Shi, Shuai Ding
Abstract要約: 本稿では,映像からr信号を推定する新たなフレームワークを提案する。負のサンプルは、非線形信号周波数変換を行う学習可能な周波数モジュールを介して生成される。次に、強化サンプルからr信号を推定するために、局所的なrエキスパートアグリゲーションモジュールを導入する。異なる顔領域からの相補的な脈動情報を符号化し、それらを1つのr予測に集約する。
参考スコア（独自算出の注目度）: 9.99375728024877
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Facial video-based remote physiological measurement aims to estimate remote photoplethysmography (rPPG) signals from human face videos and then measure multiple vital signs (e.g. heart rate, respiration frequency) from rPPG signals. Recent approaches achieve it by training deep neural networks, which normally require abundant facial videos and synchronously recorded photoplethysmography (PPG) signals for supervision. However, the collection of these annotated corpora is not easy in practice. In this paper, we introduce a novel frequency-inspired self-supervised framework that learns to estimate rPPG signals from facial videos without the need of ground truth PPG signals. Given a video sample, we first augment it into multiple positive/negative samples which contain similar/dissimilar signal frequencies to the original one. Specifically, positive samples are generated using spatial augmentation. Negative samples are generated via a learnable frequency augmentation module, which performs non-linear signal frequency transformation on the input without excessively changing its visual appearance. Next, we introduce a local rPPG expert aggregation module to estimate rPPG signals from augmented samples. It encodes complementary pulsation information from different face regions and aggregate them into one rPPG prediction. Finally, we propose a series of frequency-inspired losses, i.e. frequency contrastive loss, frequency ratio consistency loss, and cross-video frequency agreement loss, for the optimization of estimated rPPG signals from multiple augmented video samples and across temporally neighboring video samples. We conduct rPPG-based heart rate, heart rate variability and respiration frequency estimation on four standard benchmarks. The experimental results demonstrate that our method improves the state of the art by a large margin.
Abstract（参考訳）: 顔画像に基づく遠隔生理学的測定は、人間の顔ビデオからリモート光胸腺撮影(rPPG)信号を推定し、rPPG信号から複数のバイタルサイン(心拍数、呼吸頻度など)を測定することを目的としている。最近のアプローチでは、通常、豊富な顔ビデオと同期記録フォトプレチモグラフィ(ppg)信号を必要とするディープニューラルネットワークを訓練することで、これを達成している。しかし、実際にはこれらの注釈付きコーパスの収集は容易ではない。本稿では,基礎的な真理PSG信号を必要としない顔画像からrPPG信号を推定する,周波数インスパイアされた自己教師型フレームワークを提案する。ビデオサンプルが与えられたら、まず、元のサンプルと類似/相似信号周波数を含む複数の正/負のサンプルに拡大する。具体的には、空間増強を用いて正のサンプルを生成する。負のサンプルは学習可能な周波数拡張モジュールを介して生成され、視覚の外観を過度に変えることなく入力に対して非線形信号周波数変換を行う。次に、拡張サンプルからrPPG信号を推定するために、局所的なrPPGエキスパートアグリゲーションモジュールを導入する。異なる顔領域からの補足的な脈動情報を符号化し、1つのrppg予測に集約する。最後に,複数の拡張映像から推定されたrppg信号の最適化のために,周波数コントラスト損失,周波数比一貫性損失,ビデオ間周波数整合損失など,周波数にインスパイアされた一連の損失を提案する。 4つの標準ベンチマークでrppgによる心拍数,心拍変動,呼吸周波数の推定を行う。実験の結果,本手法は芸術の状態を大きなマージンで改善できることが確認された。

関連論文リスト

Recovering Pulse Waves from Video Using Deep Unrolling and Deep Equilibrium Models [45.94962431110573]
カメラによるバイタルサインのモニタリング、つまりイメージング光胸腺撮影(i)は、運転監視、情動コンピューティングなどに応用されている。本稿では,逆問題における信号処理と深層学習を組み合わせた手法を提案する。
論文参考訳（メタデータ） (2025-03-21T16:11:21Z)
CodePhys: Robust Video-based Remote Physiological Measurement through Latent Codebook Querying [26.97093819822487]
リモート光胸腺撮影は、顔の映像から非接触的な生理的信号を測定することを目的としている。既存のほとんどの方法は、心拍推定のためにニューラルネットワークを設計することで、ビデオベースのr特徴を直接抽出する。近年の手法は、干渉や劣化の影響を受けやすいため、ノイズのあるr信号が生じる。我々は、ノイズフリープロキシ空間におけるコードタスクとしてrの測定を革新的に扱うCodePhysという新しい手法を提案する。
論文参考訳（メタデータ） (2025-02-11T13:05:42Z)
Frequency-Guided Masking for Enhanced Vision Self-Supervised Learning [49.275450836604726]
本稿では、事前学習の有効性を大幅に向上させる、新しい周波数ベースの自己監視学習(SSL)手法を提案する。我々は、知識蒸留によって強化された2ブランチのフレームワークを使用し、モデルがフィルタされた画像と原画像の両方を入力として取り込むことを可能にする。
論文参考訳（メタデータ） (2024-09-16T15:10:07Z)
Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.480515954528848]
本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文参考訳（メタデータ） (2024-07-11T13:45:50Z)
SiNC+: Adaptive Camera-Based Vitals with Unsupervised Learning of Periodic Signals [6.458510829614774]
信号回帰のための非競合型教師なし学習フレームワークを初めて提示する。正常な生理的帯域内におけるスパースパワースペクトルの促進と,周期的な信号の学習にはパワースペクトルのバッチによるばらつきが十分であることがわかった。
論文参考訳（メタデータ） (2024-04-20T19:17:40Z)
DopUS-Net: Quality-Aware Robotic Ultrasound Imaging based on Doppler Signal [48.97719097435527]
DopUS-Netはドップラー画像とBモード画像を組み合わせることで、小血管のセグメンテーション精度と堅牢性を高める。動脈再同定モジュールは、リアルタイムセグメンテーション結果を質的に評価し、拡張ドップラー画像に対するプローブポーズを自動的に最適化する。
論文参考訳（メタデータ） (2023-05-15T18:19:29Z)
Non-Contrastive Unsupervised Learning of Physiological Signals from Video [4.8327232174895745]
ラベル付きビデオデータから解放される信号回帰を非コントラスト非教師付き学習フレームワークを提案する。周期性と有限帯域幅の仮定は最小限であり,本手法では非競合ビデオから直接血液体積パルスを検出することができる。
論文参考訳（メタデータ） (2023-03-14T14:34:51Z)
Contrast-Phys: Unsupervised Video-based Remote Physiological Measurement via Spatiotemporal Contrast [17.691683039742323]
遠隔胸部CT(remote Photoplethysmography、r)とも呼ばれる、血液量変化信号を測定するためのビデオベースのリモート生理計測フェイスビデオ我々は3DCNNモデルを用いて、異なる場所で各ビデオから複数のリズム信号を生成し、同じビデオからのr信号がまとめられ、異なるビデオからのr信号が押し出されながら、対照的な損失でモデルを訓練する。
論文参考訳（メタデータ） (2022-08-08T19:30:57Z)
Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文参考訳（メタデータ） (2022-07-05T09:27:53Z)
WPPG Net: A Non-contact Video Based Heart Rate Extraction Network Framework with Compatible Training Capability [21.33542693986985]
顔の皮膚には、リモートフォトプレシー(r)信号と呼ばれる微妙な色の変化があり、そこから被験者の心拍数を抽出できる。近年,r信号抽出に関する多くの深層学習手法と関連するデータセットが提案されている。しかしながら,BVP信号などのラベル波は,我々の体内を流れる時間と他の要因により,実際のr信号に不確実な遅延がある。本稿では、r信号とラベル波のリズムと周期性に関する共通特性を解析することにより、これらのネットワークを包み、トレーニング時に効率を保ち続けるためのトレーニング手法を提案する。
論文参考訳（メタデータ） (2022-07-04T19:52:30Z)
Identifying Rhythmic Patterns for Face Forgery Detection and Categorization [46.21354355137544]
本研究では, PPG信号に対する空間時間フィルタリングネットワーク (STFNet) と, PPG信号の制約と相互作用のための空間時間インタラクションネットワーク (STINet) からなる顔偽造検出と分類のためのフレームワークを提案する。フォージェリーメソッドの生成に関する知見を得て,フレームワークの性能を高めるために,イントラソースとイントラソースのブレンディングを提案する。
論文参考訳（メタデータ） (2022-07-04T04:57:06Z)
PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文参考訳（メタデータ） (2021-11-23T18:57:11Z)
Video-based Remote Physiological Measurement via Cross-verified Feature Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文参考訳（メタデータ） (2020-07-16T09:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。