論文の概要: Efficient and Robust Multidimensional Attention in Remote Physiological Sensing through Target Signal Constrained Factorization
- arxiv url: http://arxiv.org/abs/2505.07013v1
- Date: Sun, 11 May 2025 15:20:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.160911
- Title: Efficient and Robust Multidimensional Attention in Remote Physiological Sensing through Target Signal Constrained Factorization
- Title(参考訳): 目標信号制約因子化によるリモート生理学的センシングにおける効率的かつロバストな多次元的注意
- Authors: Jitesh Joshi, Youngjun Cho,
- Abstract要約: マルチモーダルビデオ入力からの光胸腺造影(rRSP)信号と呼吸(rRSP)信号の同時推定を目的とした,効率的なデュアルブランチ3D-CNNアーキテクチャであるMMRPhysを提案する。
TSFMを用いたMMRPhysは、リアルタイムアプリケーションに適した最小の推論レイテンシを維持しつつ、RRSP推定のための領域シフトの一般化において最先端の手法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 7.947387272047604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote physiological sensing using camera-based technologies offers transformative potential for non-invasive vital sign monitoring across healthcare and human-computer interaction domains. Although deep learning approaches have advanced the extraction of physiological signals from video data, existing methods have not been sufficiently assessed for their robustness to domain shifts. These shifts in remote physiological sensing include variations in ambient conditions, camera specifications, head movements, facial poses, and physiological states which often impact real-world performance significantly. Cross-dataset evaluation provides an objective measure to assess generalization capabilities across these domain shifts. We introduce Target Signal Constrained Factorization module (TSFM), a novel multidimensional attention mechanism that explicitly incorporates physiological signal characteristics as factorization constraints, allowing more precise feature extraction. Building on this innovation, we present MMRPhys, an efficient dual-branch 3D-CNN architecture designed for simultaneous multitask estimation of photoplethysmography (rPPG) and respiratory (rRSP) signals from multimodal RGB and thermal video inputs. Through comprehensive cross-dataset evaluation on five benchmark datasets, we demonstrate that MMRPhys with TSFM significantly outperforms state-of-the-art methods in generalization across domain shifts for rPPG and rRSP estimation, while maintaining a minimal inference latency suitable for real-time applications. Our approach establishes new benchmarks for robust multitask and multimodal physiological sensing and offers a computationally efficient framework for practical deployment in unconstrained environments. The web browser-based application featuring on-device real-time inference of MMRPhys model is available at https://physiologicailab.github.io/mmrphys-live
- Abstract(参考訳): カメラベースの技術を用いたリモート生理的センシングは、医療や人間とコンピュータの相互作用領域を横断する非侵襲的なバイタルサインモニタリングの変革的ポテンシャルを提供する。
深層学習手法は映像データから生理的信号の抽出を推し進めてきたが、既存の手法はドメインシフトに対する堅牢性について十分に評価されていない。
これらのリモート生理的感覚の変化には、環境条件の変化、カメラ仕様、頭部の動き、顔のポーズ、現実世界のパフォーマンスに大きな影響を及ぼす生理的状態が含まれる。
クロスデータセット評価は、これらのドメインシフトをまたいだ一般化能力を評価する客観的尺度を提供する。
我々は,生理的信号特性を因子化制約として明示的に組み込んだ新しい多次元アテンション機構であるTSFM(Target Signal Constrained Factorization Module)を導入し,より正確な特徴抽出を可能にした。
MMRPhysは,マルチモーダルRGBおよびサーマルビデオ入力からの光胸腺撮影(rPPG)と呼吸(rRSP)信号の同時マルチタスク推定のために設計された,効率的なデュアルブランチ3D-CNNアーキテクチャである。
5つのベンチマークデータセットの総合的なクロスデータセット評価を通じて、TSFMを用いたMMRPhysは、リアルタイムアプリケーションに適した最小の推論レイテンシを維持しつつ、rPPGとrRSP推定の領域シフトをまたいだ一般化において、最先端の手法を著しく上回ることを示した。
提案手法は,頑健なマルチタスクとマルチモーダルな生理学的センシングのための新しいベンチマークを確立し,制約のない環境での実践的展開のための計算効率の良いフレームワークを提供する。
MMRPhysモデルのオンデバイスリアルタイム推論を特徴とするWebブラウザベースのアプリケーションはhttps://physiologicalailab.github.io/mmrphys-liveで公開されている。
関連論文リスト
- PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文 参考訳(メタデータ) (2025-05-06T15:18:38Z) - Event-Driven Implementation of a Physical Reservoir Computing Framework for superficial EMG-based Gesture Recognition [2.222098162797332]
本稿では,表面筋電図(SEMG)データをイベント駆動方式で抽出することで,ジェスチャー認識のための新しいニューロモーフィックな実装手法を提案する。
このネットワークは、スパイキングニューラルネットワーク(SNN)の領域内で、回転ニューロン貯水池(Rotating Neuron Reservoir, RNR)と呼ばれる単純な構造化およびハードウェアフレンドリな物理貯留層コンピューティングフレームワークを実装して設計された。
提案システムはオープンアクセス型大規模sEMGデータベースで検証され,平均分類精度は74.6%,80.3%であった。
論文 参考訳(メタデータ) (2025-03-10T17:18:14Z) - FactorizePhys: Matrix Factorization for Multidimensional Attention in Remote Physiological Sensing [10.81951503398909]
Factorized Self-Attention Module (FSAM) は、非負行列分解を用いたボクセル埋め込みから多次元の注意を計算する。
提案手法は,空間的,時間的,チャネル的注意を包括的に獲得し,一般的な信号抽出の性能を高めるために,ボクセルの埋め込みを適応的に分解する。
FactorizePhysは、生のビデオフレームから血流パルス信号を推定するためのエンドツーエンドの3D-CNNアーキテクチャである。
論文 参考訳(メタデータ) (2024-11-03T12:22:58Z) - PhysMamba: State Space Duality Model for Remote Physiological Measurement [18.423806804725032]
リモート光胸腺撮影(remote Photoplethysmography, RBFC)は、顔画像から非接触的な生理的信号の抽出を可能にする。
この研究は、リアルタイム遠隔医療を含む非接触型健康モニタリングの実践的応用の基盤となる。
論文 参考訳(メタデータ) (2024-08-02T07:52:28Z) - REST: Efficient and Accelerated EEG Seizure Analysis through Residual State Updates [54.96885726053036]
本稿では,リアルタイム脳波信号解析のための新しいグラフベース残状態更新機構(REST)を提案する。
グラフニューラルネットワークとリカレント構造の組み合わせを活用することで、RESTは、非ユークリッド幾何学とEEGデータ内の時間的依存関係の両方を効率的にキャプチャする。
本モデルは,発作検出と分類作業において高い精度を示す。
論文 参考訳(メタデータ) (2024-06-03T16:30:19Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Video-based Remote Physiological Measurement via Cross-verified Feature
Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。
次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。
歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文 参考訳(メタデータ) (2020-07-16T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。