論文の概要: Robust and Generalizable Heart Rate Estimation via Deep Learning for Remote Photoplethysmography in Complex Scenarios
- arxiv url: http://arxiv.org/abs/2507.07795v1
- Date: Thu, 10 Jul 2025 14:23:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.439447
- Title: Robust and Generalizable Heart Rate Estimation via Deep Learning for Remote Photoplethysmography in Complex Scenarios
- Title(参考訳): 複合シナリオにおけるリモート光胸腺撮影のための深層学習によるロバスト・一般化可能な心拍数推定
- Authors: Kang Cen, Chang-Hong Fu, Hong Hong,
- Abstract要約: 非リモート光合成技術は、顔ビデオからの心拍測定を可能にする。
既存のネットワークモデルは、アクアリアシー、堅牢性、一般化能力の課題に直面している。
本稿では,3次元畳み込みニューラルネットワークを用いたエンドツーエンドのr抽出ネットワークを提案する。
- 参考スコア(独自算出の注目度): 7.2297623319815845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-contact remote photoplethysmography (rPPG) technology enables heart rate measurement from facial videos. However, existing network models still face challenges in accu racy, robustness, and generalization capability under complex scenarios. This paper proposes an end-to-end rPPG extraction network that employs 3D convolutional neural networks to reconstruct accurate rPPG signals from raw facial videos. We introduce a differential frame fusion module that integrates differential frames with original frames, enabling frame-level representations to capture blood volume pulse (BVP) variations. Additionally, we incorporate Temporal Shift Module (TSM) with self-attention mechanisms, which effectively enhance rPPG features with minimal computational overhead. Furthermore, we propose a novel dynamic hybrid loss function that provides stronger supervision for the network, effectively mitigating over fitting. Comprehensive experiments were conducted on not only the PURE and UBFC-rPPG datasets but also the challenging MMPD dataset under complex scenarios, involving both intra dataset and cross-dataset evaluations, which demonstrate the superior robustness and generalization capability of our network. Specifically, after training on PURE, our model achieved a mean absolute error (MAE) of 7.58 on the MMPD test set, outperforming the state-of-the-art models.
- Abstract(参考訳): 非接触型遠隔光胸腺撮影(rPPG)技術は、顔ビデオから心拍数測定を可能にする。
しかし、既存のネットワークモデルは、複雑なシナリオ下でのアクシー、ロバスト性、一般化能力の課題に直面している。
本稿では、3次元畳み込みニューラルネットワークを用いて生の顔画像から正確なrPPG信号を再構成するエンドツーエンドのrPPG抽出ネットワークを提案する。
本稿では,差動フレームと原フレームを統合する差動フレーム融合モジュールを導入し,フレームレベルの表現で血液量パルス(BVP)の変動を捉える。
さらに,TSM(Temporal Shift Module)を自己アテンション機構に組み込み,計算オーバーヘッドを最小限に抑えたrPPG機能を効果的に強化する。
さらに,ネットワークのより強力な監視を提供する動的ハイブリッド損失関数を提案する。
PUREデータセットとUBFC-rPPGデータセットだけでなく、複雑なシナリオ下でのMMPDデータセットについても総合的な実験を行った。
具体的には、PUREのトレーニング後、MMPDテストセットで平均7.58の絶対誤差(MAE)を達成し、最先端モデルよりも優れていた。
関連論文リスト
- Ordered-subsets Multi-diffusion Model for Sparse-view CT Reconstruction [11.453288952345801]
スパースビューCT再構成のための順序付きサブセット多重拡散モデル(OSMM)を提案する。
OSMMはCTプロジェクションデータを等しいサブセットに分割し、各サブセットから独立して学習するためにマルチサブセット拡散モデル(MSDM)を用いる。
以上の結果から,OSMMは画像品質や雑音耐性の点で従来の拡散モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-05-15T05:50:35Z) - Physics-Driven Autoregressive State Space Models for Medical Image Reconstruction [5.208643222679356]
医用画像再構成のための物理駆動型自己回帰状態空間モデル(MambaRoll)を提案する。
MambaRollは、最先端のデータ駆動方式と物理駆動方式を一貫して上回っている。
論文 参考訳(メタデータ) (2024-12-12T14:59:56Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Spatial Attention-based Distribution Integration Network for Human Pose
Estimation [0.8052382324386398]
本研究では,空間アテンションに基づく分布統合ネットワーク(SADI-NET)を提案する。
我々のネットワークは、受容強化モジュール(RFM)、空間融合モジュール(SFM)、分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。
我々のモデルは、MPIIテストデータセットで920.10%の精度を得、既存のモデルよりも大幅に改善され、最先端のパフォーマンスが確立された。
論文 参考訳(メタデータ) (2023-11-09T12:43:01Z) - You Only Train Once: A Unified Framework for Both Full-Reference and No-Reference Image Quality Assessment [45.62136459502005]
本稿では,完全な参照 (FR) と非参照 (NR) IQA を行うネットワークを提案する。
まず、入力画像から多レベル特徴を抽出するためにエンコーダを用いる。
FRおよびNR入力のユニバーサルアダプタとして階層的注意(HA)モジュールを提案する。
エンコーダの浅い層と深い層との間の特徴相関を調べるために, セマンティック・ディストーション・アウェア (SDA) モジュールを提案する。
論文 参考訳(メタデータ) (2023-10-14T11:03:04Z) - A Generic Shared Attention Mechanism for Various Backbone Neural Networks [53.36677373145012]
自己注意モジュール(SAM)は、異なる層にまたがる強い相関した注意マップを生成する。
Dense-and-Implicit Attention (DIA)はSAMをレイヤ間で共有し、長期間のメモリモジュールを使用する。
我々のシンプルで効果的なDIAは、様々なネットワークバックボーンを一貫して拡張できます。
論文 参考訳(メタデータ) (2022-10-27T13:24:08Z) - RetiFluidNet: A Self-Adaptive and Multi-Attention Deep Convolutional
Network for Retinal OCT Fluid Segmentation [3.57686754209902]
OCTガイド下治療には網膜液の定量化が必要である。
RetiFluidNetと呼ばれる新しい畳み込みニューラルアーキテクチャは、多クラス網膜流体セグメンテーションのために提案されている。
モデルは、テクスチャ、コンテキスト、エッジといった特徴の階層的な表現学習の恩恵を受ける。
論文 参考訳(メタデータ) (2022-09-26T07:18:00Z) - InDuDoNet+: A Model-Driven Interpretable Dual Domain Network for Metal
Artifact Reduction in CT Images [53.4351366246531]
InDuDoNet+と呼ばれる新しい解釈可能な二重ドメインネットワークを構築し、CT画像の微細な埋め込みを行う。
異なる組織間のCT値を分析し,InDuDoNet+の事前観測ネットワークにマージすることで,その一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-12-23T15:52:37Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Dynamic Proximal Unrolling Network for Compressive Sensing Imaging [29.00266254916676]
本稿では,DPUNetと呼ばれる動的近位アンローリングネットワークについて述べる。
具体的には、DPUNetは、勾配降下による埋め込み物理モデルと、学習された動的近位写像による画像のインポーティングの両方を活用できる。
実験結果から,提案したDPUNetは,サンプル比や雑音レベルの異なる複数のCSIモダリティを1つのモデルで効果的に処理できることがわかった。
論文 参考訳(メタデータ) (2021-07-23T03:04:44Z) - Sequential Hierarchical Learning with Distribution Transformation for
Image Super-Resolution [83.70890515772456]
画像SRのための逐次階層学習型超解像ネットワーク(SHSR)を構築した。
特徴のスケール間相関を考察し、階層的情報を段階的に探索するシーケンシャルなマルチスケールブロック(SMB)を考案する。
実験結果から,SHSRは最先端手法に優れた定量的性能と視覚的品質が得られることが示された。
論文 参考訳(メタデータ) (2020-07-19T01:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。