論文の概要: Editing Physiological Signals in Videos Using Latent Representations
- arxiv url: http://arxiv.org/abs/2509.25348v2
- Date: Wed, 01 Oct 2025 01:16:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-02 12:11:26.79918
- Title: Editing Physiological Signals in Videos Using Latent Representations
- Title(参考訳): 潜在表現を用いた映像の生理信号の編集
- Authors: Tianwen Zhou, Akshay Paruchuri, Josef Spjut, Kaan Akşit,
- Abstract要約: 心拍数(Heart Rate、HR)は、個人の健康をモニターする非接触手段である。
顔ビデオに重要な信号があることは、プライバシーの懸念を生じさせる。
映像中の生理的信号の編集を視覚的忠実性を維持しながら行うことを提案する。
リアルビデオにおける生体信号の匿名化や,バイタルサイン付きリアルビデオなどの応用には,制御可能なHR編集が有用である。
- 参考スコア(独自算出の注目度): 1.1688456044134343
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-based physiological signal estimation provides a non-contact and convenient means to monitor Heart Rate (HR). However, the presence of vital signals in facial videos raises significant privacy concerns, as they can reveal sensitive personal information related to the health and emotional states of an individual. To address this, we propose a learned framework that edits physiological signals in videos while preserving visual fidelity. First, we encode an input video into a latent space via a pretrained 3D Variational Autoencoder (3D VAE), while a target HR prompt is embedded through a frozen text encoder. We fuse them using a set of trainable spatio-temporal layers with Adaptive Layer Normalizations (AdaLN) to capture the strong temporal coherence of remote Photoplethysmography (rPPG) signals. We apply Feature-wise Linear Modulation (FiLM) in the decoder with a fine-tuned output layer to avoid the degradation of physiological signals during reconstruction, enabling accurate physiological modulation in the reconstructed video. Empirical results show that our method preserves visual quality with an average PSNR of 38.96 dB and SSIM of 0.98 on selected datasets, while achieving an average HR modulation error of 10.00 bpm MAE and 10.09% MAPE using a state-of-the-art rPPG estimator. Our design's controllable HR editing is useful for applications such as anonymizing biometric signals in real videos or synthesizing realistic videos with desired vital signs.
- Abstract(参考訳): カメラに基づく生理学的信号推定は、心拍数(HR)を監視する非接触で便利な手段を提供する。
しかし、顔ビデオに重要な信号があることは、個人の健康状態や感情状態に関連する機密性の高い個人情報を明らかにすることができるため、プライバシー上の重大な懸念を生じさせる。
そこで本稿では,視覚的忠実さを維持しながら映像の生理的信号を編集する学習フレームワークを提案する。
まず、予め訓練した3D変分オートエンコーダ(3D VAE)を介して入力映像を潜伏空間にエンコードし、凍結したテキストエンコーダを介してターゲットHRプロンプトを埋め込む。
適応層正規化 (AdaLN) を用いたトレーニング可能な時空間層を用いて, 遠隔光プラチスモグラフィ (rPPG) 信号の強い時間的コヒーレンスを捉える。
再生中の生理的信号の劣化を回避するため,デコーダに細調整された出力層を用いた特徴量線形変調 (FiLM) を適用し, 再構成ビデオにおける正確な生理的変調を可能にする。
実験の結果,提案手法は, 平均PSNRが38.96dB, SSIMが0.98であり, 平均HR変調誤差が10.00bpm MAE, 10.09% MAPEであった。
実ビデオにおける生体信号の匿名化や,望まれるバイタルサインによるリアルビデオの合成など,我々の設計による人事編集は有用である。
関連論文リスト
- Periodic-MAE: Periodic Video Masked Autoencoder for rPPG Estimation [6.32655874508904]
本研究では,肌の色調の微妙な変化を経時的に捉え,顔画像から周期的な信号の一般的な表現を学習する手法を提案する。
提案手法をPURE, U-BFCr, MMPD, V-BFC4Vデータセット上で評価した。
その結果,特にクロスデータセット評価の課題において,大幅な性能向上が見られた。
論文 参考訳(メタデータ) (2025-06-27T02:18:10Z) - PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - CodePhys: Robust Video-based Remote Physiological Measurement through Latent Codebook Querying [26.97093819822487]
リモート光胸腺撮影は、顔の映像から非接触的な生理的信号を測定することを目的としている。
既存のほとんどの方法は、心拍推定のためにニューラルネットワークを設計することで、ビデオベースのr特徴を直接抽出する。
近年の手法は、干渉や劣化の影響を受けやすいため、ノイズのあるr信号が生じる。
我々は、ノイズフリープロキシ空間におけるコードタスクとしてrの測定を革新的に扱うCodePhysという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:05:42Z) - HuGDiffusion: Generalizable Single-Image Human Rendering via 3D Gaussian Diffusion [50.02316409061741]
HuGDiffusionは、シングルビュー入力画像から人間の文字の新しいビュー合成(NVS)を実現するための学習パイプラインである。
本研究では,1つの画像から抽出したヒトの事前情報に基づいて,拡散に基づくフレームワークを用いて3DGS属性の集合を生成することを目的とする。
我々のHuGDiffusionは最先端の手法よりも優れた性能を示している。
論文 参考訳(メタデータ) (2025-01-25T01:00:33Z) - Facial Video-based Remote Physiological Measurement via Self-supervised
Learning [9.99375728024877]
本稿では,映像からr信号を推定する新たなフレームワークを提案する。
負のサンプルは、非線形信号周波数変換を行う学習可能な周波数モジュールを介して生成される。
次に、強化サンプルからr信号を推定するために、局所的なrエキスパートアグリゲーションモジュールを導入する。
異なる顔領域からの相補的な脈動情報を符号化し、それらを1つのr予測に集約する。
論文 参考訳(メタデータ) (2022-10-27T13:03:23Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Video-based Remote Physiological Measurement via Cross-verified Feature
Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。
次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。
歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文 参考訳(メタデータ) (2020-07-16T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。