論文の概要: Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality
- arxiv url: http://arxiv.org/abs/2504.01774v2
- Date: Mon, 07 Apr 2025 05:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 13:54:09.018535
- Title: Memory-efficient Low-latency Remote Photoplethysmography through Temporal-Spatial State Space Duality
- Title(参考訳): 時空間空間双対によるメモリ効率の低い低遅延光胸腺撮影
- Authors: Kegang Wang, Jiankai Tang, Yuxuan Fan, Jiatong Ji, Yuanchun Shi, Yuntao Wang,
- Abstract要約: ME-rは時間空間空間双対性に基づくメモリ効率のアルゴリズムである。
最小の計算オーバーヘッドを維持しながら、顔フレーム間の微妙な周期的な変動を効率的に捉える。
我々のソリューションは3.6MBのメモリ使用率と9.46msのレイテンシでリアルタイムの推論を可能にする。
- 参考スコア(独自算出の注目度): 15.714133129768323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote photoplethysmography (rPPG), enabling non-contact physiological monitoring through facial light reflection analysis, faces critical computational bottlenecks as deep learning introduces performance gains at the cost of prohibitive resource demands. This paper proposes ME-rPPG, a memory-efficient algorithm built on temporal-spatial state space duality, which resolves the trilemma of model scalability, cross-dataset generalization, and real-time constraints. Leveraging a transferable state space, ME-rPPG efficiently captures subtle periodic variations across facial frames while maintaining minimal computational overhead, enabling training on extended video sequences and supporting low-latency inference. Achieving cross-dataset MAEs of 5.38 (MMPD), 0.70 (VitalVideo), and 0.25 (PURE), ME-rPPG outperforms all baselines with improvements ranging from 21.3% to 60.2%. Our solution enables real-time inference with only 3.6 MB memory usage and 9.46 ms latency -- surpassing existing methods by 19.5%-49.7% accuracy and 43.2% user satisfaction gains in real-world deployments. The code and demos are released for reproducibility on https://health-hci-group.github.io/ME-rPPG-demo/.
- Abstract(参考訳): RPPG(Remote Photoplethysmography)は、顔光の反射分析による非接触的な生理的モニタリングを可能にする。
本稿では,時間空間空間双対性に基づくメモリ効率アルゴリズムME-rPPGを提案する。
転送可能な状態空間を利用することで、ME-rPPGは最小の計算オーバーヘッドを維持しながら、顔フレーム間の微妙な周期的変動を効率的にキャプチャし、拡張されたビデオシーケンスのトレーニングを可能にし、低レイテンシ推論をサポートする。
5.38(MMPD)、0.70(VitalVideo)、0.25(PURE)のクロスデータセットMAEを達成し、ME-rPPGは21.3%から60.2%改善した。
私たちのソリューションは,3.6MBのメモリ使用量と9.46ミリ秒のレイテンシを持つリアルタイム推論を可能にする。既存のメソッドを19.5%~49.7%の精度で上回り,実際のデプロイメントで43.2%のユーザ満足度が向上する。
コードとデモはhttps://health-hci-group.github.io/ME-rPPG-demo/で再現できる。
関連論文リスト
- Evaluating and Enhancing Segmentation Model Robustness with Metamorphic Testing [10.564949684320727]
SegRMTは、遺伝的アルゴリズムを利用して空間変換とスペクトル変換のシーケンスを最適化するテスト手法である。
実験の結果、SegRMTはDeepLabV3のmIoU(Intersection over Union)を6.4%に削減した。
敵の訓練に使用する場合、SegRMTはモデルのパフォーマンスを向上し、mIoUの改善を最大73%向上させる。
論文 参考訳(メタデータ) (2025-04-03T07:15:45Z) - Speedy MASt3R [68.47052557089631]
MASt3Rは、DUSt3Rを活用して高速な相互マッチング方式を導入することで、画像マッチングを3Dタスクとして再定義する。
高速MASt3Rは、精度を犠牲にすることなく、推論時間(画像ペアあたり198msから91ms)を54%削減する。
この進歩により、リアルタイムな3D理解が可能になり、複合現実ナビゲーションや大規模3Dシーン再構築といったアプリケーションに恩恵をもたらす。
論文 参考訳(メタデータ) (2025-03-13T03:56:22Z) - Sebica: Lightweight Spatial and Efficient Bidirectional Channel Attention Super Resolution Network [0.0]
SISR(Single Image Super-Resolution)は,低解像度画像の画質向上のための重要な技術である。
本稿では,空間的および効率的な双方向チャネルアテンション機構を組み込んだ軽量ネットワークSebicaを提案する。
セビカは高い復元品質を維持しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-10-27T18:27:07Z) - Compressing Recurrent Neural Networks for FPGA-accelerated Implementation in Fluorescence Lifetime Imaging [3.502427552446068]
ディープラーニングモデルはリアルタイム推論を可能にするが、複雑なアーキテクチャと大規模な行列演算のために計算的に要求される。
これにより、フィールドプログラマブルゲートアレイ(FPGA)ベースのカメラハードウェアの直接実装に不適なDLモデルが得られる。
本研究では,FLI時系列データ処理に適したリカレントニューラルネットワーク(RNN)の圧縮に着目し,資源制約付きFPGAボードへの展開を実現する。
論文 参考訳(メタデータ) (2024-10-01T17:23:26Z) - Continuous sPatial-Temporal Deformable Image Registration (CPT-DIR) for motion modelling in radiotherapy: beyond classic voxel-based methods [10.17207334278678]
CPT-DIR(Continuous-sPatial-Temporal DIR)という,空間と時間の両方で連続的に動きをモデル化する暗黙的ニューラル表現(INR)に基づくアプローチを提案する。
DIRは,10例の肺4DCTのDIR-Labデータセットを用いて,ランドマーク精度(TRE),輪郭適合度(Dice),画像類似度(MAE)の測定を行った。
提案したCPT-DIRは、ランドマークTREを2.79mmから0.99mmに減らし、すべてのケースにおいてBスプラインの結果より優れている。
論文 参考訳(メタデータ) (2024-05-01T10:26:08Z) - Sub-token ViT Embedding via Stochastic Resonance Transformers [51.12001699637727]
Vision Transformer (ViT) アーキテクチャは、画像を高次元のベクトル化トークンの集合として表現し、それぞれが長方形の非重複パッチに対応する。
我々は「確率共鳴」にインスパイアされた無訓練法を提案する。
結果として得られるSRT(Stochastic Resonance Transformer)は、元の表現のリッチな意味情報を保持するが、空間的トークン化の粗い効果を軽減し、より微細な空間領域に基盤を置いている。
論文 参考訳(メタデータ) (2023-10-06T01:53:27Z) - Coordinate Transformer: Achieving Single-stage Multi-person Mesh
Recovery from Videos [91.44553585470688]
ビデオから複数人の3Dメッシュを回収することは、バーチャルリアリティーや理学療法などにおけるグループ行動の自動認識に向けた重要な第一歩である。
本稿では,複数人物の時空間関係を直接モデル化し,同時にエンドツーエンドでマルチ・メッシュ・リカバリを行うコーディネート・トランスフォーマーを提案する。
3DPWデータセットの実験では、CoordFormerが最先端の精度を大幅に向上し、MPJPE、PAMPJPE、PVEの計測値でそれぞれ4.2%、8.8%、そして4.7%を上回った。
論文 参考訳(メタデータ) (2023-08-20T18:23:07Z) - MPCViT: Searching for Accurate and Efficient MPC-Friendly Vision
Transformer with Heterogeneous Attention [11.999596399083089]
我々は,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。
広範な実験により、MPCViTは6.2倍、2.9倍、および1.9倍の遅延低減で1.9%、1.3%、および3.6%の精度を達成した。
論文 参考訳(メタデータ) (2022-11-25T08:37:17Z) - FasterPose: A Faster Simple Baseline for Human Pose Estimation [65.8413964785972]
本稿では,高速ポーズ推定のためのLR表現を用いた費用対効果ネットワークの設計パラダイムであるFasterPoseを提案する。
我々は,FasterPoseのトレーニング挙動について検討し,収束を加速する新しい回帰クロスエントロピー(RCE)損失関数を定式化する。
従来のポーズ推定ネットワークと比較すると,FLOPの58%が減少し,精度が1.3%向上した。
論文 参考訳(メタデータ) (2021-07-07T13:39:08Z) - Reinforcement Learning with Latent Flow [78.74671595139613]
Flow of Latents for Reinforcement Learning (Flare)はRLのためのネットワークアーキテクチャであり、潜時ベクトル差分を通じて時間情報を明示的に符号化する。
本研究では,Frareが状態速度に明示的にアクセスすることなく,状態ベースRLの最適性能を回復することを示す。
我々はまた、FlareがDeepMindコントロールベンチマークスイート内のピクセルベースの挑戦的な連続制御タスクで最先端のパフォーマンスを達成することも示しています。
論文 参考訳(メタデータ) (2021-01-06T03:50:50Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z) - Spatiotemporal Contrastive Video Representation Learning [87.56145031149869]
ラベルのないビデオから視覚的表現を学習するための,自己指導型コントラスト映像表現学習(CVRL)法を提案する。
我々の表現は、コントラスト時間的損失を用いて学習され、同じ短いビデオから2つの強化されたクリップが埋め込み空間にまとめられる。
本研究では,ビデオ自己教師型学習におけるデータ向上の要因について検討し,空間的情報と時間的情報の両方が重要であることを明らかにする。
論文 参考訳(メタデータ) (2020-08-09T19:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。