論文の概要: PhysNeXt: Next-Generation Dual-Branch Structured Attention Fusion Network for Remote Photoplethysmography Measurement
- arxiv url: http://arxiv.org/abs/2603.19752v1
- Date: Fri, 20 Mar 2026 08:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.055981
- Title: PhysNeXt: Next-Generation Dual-Branch Structured Attention Fusion Network for Remote Photoplethysmography Measurement
- Title(参考訳): PhysNeXt:リモート光胸腺撮影のための次世代デュアルブランチ構造化注意核融合ネットワーク
- Authors: Junzhe Cao, Bo Zhao, Zhiyi Niu, Dan Guo, Yue Sun, Haochen Liang, Yong Xu, Zitong YU,
- Abstract要約: ハーモグラフィーは、心臓の脈動によって引き起こされる顔の皮膚の色変化を分析し、心拍数やその他の重要な兆候を測定することができる。
現在の手法は主に生のビデオからエンド・ツー・エンドのモデリング、または微妙な心拍マップ(ST)表現に基づいている。
本稿では,ビデオフレームとST表現を併用したデュアルインプットディープラーニングフレームワークであるPhysMapXtを提案する。
- 参考スコア(独自算出の注目度): 50.524262997433546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote photoplethysmography (rPPG) enables contactless measurement of heart rate and other vital signs by analyzing subtle color variations in facial skin induced by cardiac pulsation. Current rPPG methods are mainly based on either end-to-end modeling from raw videos or intermediate spatial-temporal map (STMap) representations. The former preserves complete spatiotemporal information and can capture subtle heartbeat-related signals, but it also introduces substantial noise from motion artifacts and illumination variations. The latter stacks the temporal color changes of multiple facial regions of interest into compact two-dimensional representations, significantly reducing data volume and computational complexity, although some high-frequency details may be lost. To effectively integrate the mutual strengths, we propose PhysNeXt, a dual-input deep learning framework that jointly exploits video frames and STMap representations. By incorporating a spatio-temporal difference modeling unit, a cross-modal interaction module, and a structured attention-based decoder, PhysNeXt collaboratively enhances the robustness of pulse signal extraction. Experimental results demonstrate that PhysNeXt achieves more stable and fine-grained rPPG signal recovery under challenging conditions, validating the effectiveness of joint modeling of video and STMap representations. The codes will be released.
- Abstract(参考訳): リモート光胸腺造影(rPPG)は、心臓脈動により引き起こされる顔面皮膚の微妙な色変化を解析することにより、心拍数やその他のバイタルサインを無接触で測定することができる。
現在のrPPG法は主に、生のビデオからのエンドツーエンドのモデリングと、中間時空間地図(STMap)の表現に基づいている。
前者は完全な時空間情報を保存し、微妙な心拍関連信号を捉えることができるが、運動人工物からのかなりのノイズや照明のバリエーションも導入する。
後者は、興味のある複数の顔領域の時間的色変化をコンパクトな2次元表現に積み重ね、データボリュームと計算の複雑さを著しく低減するが、いくつかの高周波の詳細は失われる可能性がある。
相互の強みを効果的に統合するために,ビデオフレームとSTMap表現を併用した2入力深層学習フレームワークPhysNeXtを提案する。
時空間差分モデリングユニット、クロスモーダル相互作用モジュール、構造化アテンションベースのデコーダを組み込むことにより、PhysNeXtはパルス信号抽出の堅牢性を協調的に強化する。
実験により、PhysNeXtはより安定かつ微細なrPPG信号の回復を困難な条件下で達成し、ビデオとSTMap表現の合同モデリングの有効性を検証した。
コードはリリースされます。
関連論文リスト
- PHASE-Net: Physics-Grounded Harmonic Attention System for Efficient Remote Photoplethysmography Measurement [63.007237197267834]
既存のディープラーニング手法は、主に生理学的モニタリングであり、理論的な堅牢性を欠いている。
本研究では,Navier-Stokes方程式のヘモダイナミックスから導かれる物理インフォームド r パラダイムを提案し,パルス信号が2次系に従うことを示す。
これは、時間的円錐ネットワーク(TCN)を使用する理論的正当性を提供する。
Phase-Netは高い効率で最先端のパフォーマンスを実現し、理論上は基礎的でデプロイ可能な r ソリューションを提供する。
論文 参考訳(メタデータ) (2025-09-29T14:36:45Z) - PhysMamba: State Space Duality Model for Remote Physiological Measurement [18.423806804725032]
リモート光胸腺撮影(remote Photoplethysmography, RBFC)は、顔画像から非接触的な生理的信号の抽出を可能にする。
この研究は、リアルタイム遠隔医療を含む非接触型健康モニタリングの実践的応用の基盤となる。
論文 参考訳(メタデータ) (2024-08-02T07:52:28Z) - Dual-path TokenLearner for Remote Photoplethysmography-based
Physiological Measurement with Facial Videos [24.785755814666086]
本稿では,学習可能なトークンの概念を利用して,ビデオのグローバルな視点から空間的・時間的情報的コンテキストを統合する。
TTL(Temporal TokenLearner)は、頭部運動などの時間的乱れを排除し、心拍の準周期パターンを推定するように設計されている。
論文 参考訳(メタデータ) (2023-08-15T13:45:45Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。