論文の概要: Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality
- arxiv url: http://arxiv.org/abs/2504.01774v2
- Date: Mon, 07 Apr 2025 05:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 10:47:01.369903
- Title: Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality
- Title(参考訳): 時空間空間双対によるメモリ効率の低い低遅延光胸腺撮影
- Authors: Kegang Wang, Jiankai Tang, Yuxuan Fan, Jiatong Ji, Yuanchun Shi, Yuntao Wang,
- Abstract要約: ME-rは時間空間空間双対性に基づくメモリ効率のアルゴリズムである。
最小の計算オーバーヘッドを維持しながら、顔フレーム間の微妙な周期的な変動を効率的に捉える。
我々のソリューションは3.6MBのメモリ使用率と9.46msのレイテンシでリアルタイムの推論を可能にする。
- 参考スコア(独自算出の注目度): 15.714133129768323
- License:
- Abstract: Remote photoplethysmography (rPPG), enabling non-contact physiological monitoring through facial light reflection analysis, faces critical computational bottlenecks as deep learning introduces performance gains at the cost of prohibitive resource demands. This paper proposes ME-rPPG, a memory-efficient algorithm built on temporal-spatial state space duality, which resolves the trilemma of model scalability, cross-dataset generalization, and real-time constraints. Leveraging a transferable state space, ME-rPPG efficiently captures subtle periodic variations across facial frames while maintaining minimal computational overhead, enabling training on extended video sequences and supporting low-latency inference. Achieving cross-dataset MAEs of 5.38 (MMPD), 0.70 (VitalVideo), and 0.25 (PURE), ME-rPPG outperforms all baselines with improvements ranging from 21.3% to 60.2%. Our solution enables real-time inference with only 3.6 MB memory usage and 9.46 ms latency -- surpassing existing methods by 19.5%-49.7% accuracy and 43.2% user satisfaction gains in real-world deployments. The code and demos are released for reproducibility on https://health-hci-group.github.io/ME-rPPG-demo/.
- Abstract(参考訳): RPPG(Remote Photoplethysmography)は、顔光の反射分析による非接触的な生理的モニタリングを可能にする。
本稿では,時間空間空間双対性に基づくメモリ効率アルゴリズムME-rPPGを提案する。
転送可能な状態空間を利用することで、ME-rPPGは最小の計算オーバーヘッドを維持しながら、顔フレーム間の微妙な周期的変動を効率的にキャプチャし、拡張されたビデオシーケンスのトレーニングを可能にし、低レイテンシ推論をサポートする。
5.38(MMPD)、0.70(VitalVideo)、0.25(PURE)のクロスデータセットMAEを達成し、ME-rPPGは21.3%から60.2%改善した。
私たちのソリューションは,3.6MBのメモリ使用量と9.46ミリ秒のレイテンシを持つリアルタイム推論を可能にする。既存のメソッドを19.5%~49.7%の精度で上回り,実際のデプロイメントで43.2%のユーザ満足度が向上する。
コードとデモはhttps://health-hci-group.github.io/ME-rPPG-demo/で再現できる。
関連論文リスト
- LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z) - Sebica: Lightweight Spatial and Efficient Bidirectional Channel Attention Super Resolution Network [0.0]
SISR(Single Image Super-Resolution)は,低解像度画像の画質向上のための重要な技術である。
本稿では,空間的および効率的な双方向チャネルアテンション機構を組み込んだ軽量ネットワークSebicaを提案する。
セビカは高い復元品質を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-10-27T18:27:07Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - Continuous sPatial-Temporal Deformable Image Registration (CPT-DIR) for motion modelling in radiotherapy: beyond classic voxel-based methods [10.17207334278678]
CPT-DIR(Continuous-sPatial-Temporal DIR)という,空間と時間の両方で連続的に動きをモデル化する暗黙的ニューラル表現(INR)に基づくアプローチを提案する。
DIRは,10例の肺4DCTのDIR-Labデータセットを用いて,ランドマーク精度(TRE),輪郭適合度(Dice),画像類似度(MAE)の測定を行った。
提案したCPT-DIRは、ランドマークTREを2.79mmから0.99mmに減らし、すべてのケースにおいてBスプラインの結果より優れている。
論文 参考訳(メタデータ) (2024-05-01T10:26:08Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z) - Real-time Semantic Segmentation via Spatial-detail Guided Context
Propagation [49.70144583431999]
本研究では,リアルタイムセマンティックセグメンテーションを実現するための空間詳細ガイド付きコンテキスト伝搬ネットワーク(SGCPNet)を提案する。
浅い層の空間的詳細を利用して低解像度のグローバルコンテキストの伝播を誘導し、失われた空間情報を効果的に再構成することができる。
69.5%のmIoUセグメンテーション精度を実現し、GeForce GTX 1080 Tiの768x1536イメージ上で178.5 FPSに達する。
論文 参考訳(メタデータ) (2020-05-22T07:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。