論文の概要: Remote Photoplethysmography in Real-World and Extreme Lighting Scenarios
- arxiv url: http://arxiv.org/abs/2503.11465v1
- Date: Fri, 14 Mar 2025 14:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:07:03.860002
- Title: Remote Photoplethysmography in Real-World and Extreme Lighting Scenarios
- Title(参考訳): 実世界および極端照明シナリオにおけるリモート光胸腺撮影
- Authors: Hang Shao, Lei Luo, Jianjun Qian, Mengkai Yan, Shuo Chen, Jian Yang,
- Abstract要約: リモート光ポモグラフィーのためのエンド・ツー・エンドの教師付きモデルを提案する。
複雑で未知の外部の時間変化の干渉を排除しようとする。
これは、実際の屋外の自然顔ビデオのための最初の堅牢なrモデルである。
- 参考スコア(独自算出の注目度): 26.913899198659436
- License:
- Abstract: Physiological activities can be manifested by the sensitive changes in facial imaging. While they are barely observable to our eyes, computer vision manners can, and the derived remote photoplethysmography (rPPG) has shown considerable promise. However, existing studies mainly rely on spatial skin recognition and temporal rhythmic interactions, so they focus on identifying explicit features under ideal light conditions, but perform poorly in-the-wild with intricate obstacles and extreme illumination exposure. In this paper, we propose an end-to-end video transformer model for rPPG. It strives to eliminate complex and unknown external time-varying interferences, whether they are sufficient to occupy subtle biosignal amplitudes or exist as periodic perturbations that hinder network training. In the specific implementation, we utilize global interference sharing, subject background reference, and self-supervised disentanglement to eliminate interference, and further guide learning based on spatiotemporal filtering, reconstruction guidance, and frequency domain and biological prior constraints to achieve effective rPPG. To the best of our knowledge, this is the first robust rPPG model for real outdoor scenarios based on natural face videos, and is lightweight to deploy. Extensive experiments show the competitiveness and performance of our model in rPPG prediction across datasets and scenes.
- Abstract(参考訳): 生理的活動は、顔画像の敏感な変化によって現れる。
眼ではほとんど観察できないが、コンピュータビジョンの手法は可能であり、引き起こされたリモート光胸腺造影(rPPG)はかなりの可能性を示している。
しかし、既存の研究は主に空間的肌の認識と時間的リズムの相互作用に依存しており、理想的な光条件下での明示的な特徴を特定することに重点を置いている。
本稿では,rPPGのためのエンドツーエンドビデオトランスモデルを提案する。
それは、微妙な生体信号振幅を占有するのに十分であるか、ネットワークのトレーニングを妨げる周期的な摂動として存在するか、複雑な、未知の外部の時間変化の干渉を排除しようとしている。
具体的実装では,大域的干渉共有,対象背景参照,自己監督的絡み合いを利用して干渉を排除し,時空間フィルタリング,再構成誘導,周波数領域および生物学的事前制約に基づく学習を指導し,効果的なrPPGを実現する。
私たちの知る限りでは、これは自然の顔ビデオに基づく実際の屋外シナリオのための初めての堅牢なrPPGモデルであり、デプロイも軽量です。
大規模な実験は、データセットやシーン間のrPPG予測において、我々のモデルの競争性と性能を示す。
関連論文リスト
- CodePhys: Robust Video-based Remote Physiological Measurement through Latent Codebook Querying [26.97093819822487]
リモート光胸腺撮影は、顔の映像から非接触的な生理的信号を測定することを目的としている。
既存のほとんどの方法は、心拍推定のためにニューラルネットワークを設計することで、ビデオベースのr特徴を直接抽出する。
近年の手法は、干渉や劣化の影響を受けやすいため、ノイズのあるr信号が生じる。
我々は、ノイズフリープロキシ空間におけるコードタスクとしてrの測定を革新的に扱うCodePhysという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T13:05:42Z) - Generalizable Non-Line-of-Sight Imaging with Learnable Physical Priors [52.195637608631955]
非視線画像(NLOS)は、その潜在的な応用により注目されている。
既存のNLOS再構成アプローチは、経験的物理的前提に依存して制約される。
本稿では,Learningable Path Compensation(LPC)とAdaptive Phasor Field(APF)の2つの主要な設計を含む,学習に基づく新しいソリューションを提案する。
論文 参考訳(メタデータ) (2024-09-21T04:39:45Z) - Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.480515954528848]
本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文 参考訳(メタデータ) (2024-07-11T13:45:50Z) - Toward Motion Robustness: A masked attention regularization framework in remote photoplethysmography [5.743550396843244]
MAR-rはROIローカライゼーションと複雑なモーションアーティファクトの影響を統合するフレームワークである。
MAR-rは、顔クリップのセマンティック一貫性を捉えるために、マスクされた注意規則化機構をrフィールドに採用している。
また、モデルが不正確なROIに過度に適合し、その後パフォーマンスが低下するのを防ぐために、マスキング技術を採用している。
論文 参考訳(メタデータ) (2024-07-09T08:25:30Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - Practical Exposure Correction: Great Truths Are Always Simple [65.82019845544869]
我々は,効率と性能の特性を組み立てるPEC(Practical Exposure Corrector)を確立する。
観測結果から有用な情報を抽出するキーエンジンとして,露光対向関数を導入する。
我々の実験は提案したPECの優位性を十分に明らかにしている。
論文 参考訳(メタデータ) (2022-12-29T09:52:13Z) - DRNet: Decomposition and Reconstruction Network for Remote Physiological
Measurement [39.73408626273354]
既存の方法は一般に2つのグループに分けられる。
1つ目は、顔ビデオから微妙な音量パルス(BVP)信号を抽出することに焦点を当てているが、顔ビデオコンテンツを支配するノイズを明示的にモデル化することはめったにない。
第二に、ノイズの多いデータを直接モデリングすることに焦点を当てており、これらの厳密なランダムノイズの規則性の欠如により、最適以下の性能が得られる。
論文 参考訳(メタデータ) (2022-06-12T07:40:10Z) - LTT-GAN: Looking Through Turbulence by Inverting GANs [86.25869403782957]
本稿では,よく訓練されたGANによってカプセル化された視覚的事前情報を利用した最初の乱流緩和手法を提案する。
視覚的先行性に基づき、周期的な文脈距離で復元された画像の同一性を維持することを学ぶことを提案する。
本手法は, 回復した結果の視覚的品質と顔認証精度の両方において, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2021-12-04T16:42:13Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Spatial-Phase Shallow Learning: Rethinking Face Forgery Detection in
Frequency Domain [88.7339322596758]
本論文では,空間画像と位相スペクトルを組み合わせ,顔の偽造のアップサンプリング成果をキャプチャするSPSL(Spatial-Phase Shallow Learning)法を提案する。
SPSLは、クロスデータセット評価における最先端性能とマルチクラス分類を実現し、単一データセット評価において同等の結果を得ることができる。
論文 参考訳(メタデータ) (2021-03-02T16:45:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。