論文の概要: PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba
- arxiv url: http://arxiv.org/abs/2409.12031v1
- Date: Wed, 18 Sep 2024 14:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:10:23.750734
- Title: PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba
- Title(参考訳): PhysMamba: Slowfast Temporal difference Mambaを用いた効率的な遠隔生理計測
- Authors: Chaoqi Luo, Yiping Xie, Zitong Yu,
- Abstract要約: 従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。
本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。
PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
- 参考スコア(独自算出の注目度): 20.435381963248787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial-video based Remote photoplethysmography (rPPG) aims at measuring physiological signals and monitoring heart activity without any contact, showing significant potential in various applications. Previous deep learning based rPPG measurement are primarily based on CNNs and Transformers. However, the limited receptive fields of CNNs restrict their ability to capture long-range spatio-temporal dependencies, while Transformers also struggle with modeling long video sequences with high complexity. Recently, the state space models (SSMs) represented by Mamba are known for their impressive performance on capturing long-range dependencies from long sequences. In this paper, we propose the PhysMamba, a Mamba-based framework, to efficiently represent long-range physiological dependencies from facial videos. Specifically, we introduce the Temporal Difference Mamba block to first enhance local dynamic differences and further model the long-range spatio-temporal context. Moreover, a dual-stream SlowFast architecture is utilized to fuse the multi-scale temporal features. Extensive experiments are conducted on three benchmark datasets to demonstrate the superiority and efficiency of PhysMamba. The codes are available at https://github.com/Chaoqi31/PhysMamba
- Abstract(参考訳): 顔画像を用いた遠隔胸腺造影(rPPG)は, 生理的信号を測定し, 接触なく心臓活動を監視することを目的としており, 様々な応用に有意な可能性を秘めている。
従来のディープラーニングに基づくrPPG測定は主にCNNとTransformerに基づいている。
しかし、CNNの制限された受容的フィールドは、長距離の時空間依存性をキャプチャする能力を制限する一方で、トランスフォーマーは、複雑さの高い長いビデオシーケンスのモデリングにも苦労する。
近年、Mambaによって表現された状態空間モデル(SSM)は、長いシーケンスから長距離依存関係をキャプチャする際の優れた性能で知られている。
本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。
具体的には,時間的差分マンバブロックを導入し,まず局所的な動的差分を増大させ,さらに長距離時空間をモデル化する。
さらに、デュアルストリームのSlowFastアーキテクチャを使用して、マルチスケールの時間的特徴を融合する。
PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
コードはhttps://github.com/Chaoqi31/PhysMambaで入手できる。
関連論文リスト
- MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos [10.132660483466239]
本稿ではRhythmMambaについて紹介する。RhythmMambaはマルチテンポラリマンバを用いて周期パターンと短期トレンドの両方を制約するエンド・ツー・エンドの手法である。
大規模な実験により、RhythmMambaはパラメータを減らし計算複雑性を下げた最先端の性能を示した。
論文 参考訳(メタデータ) (2024-04-09T17:34:19Z) - Vivim: a Video Vision Mamba for Medical Video Segmentation [52.11785024350253]
本稿では、医用ビデオセグメンテーションタスクのためのビデオビジョンマンバベースのフレームワークVivimを提案する。
我々のビビムは、長期表現を様々なスケールのシーケンスに効果的に圧縮することができる。
超音波検査では甲状腺分節,乳房病変分節,大腸内視鏡検査ではポリープ分節が有効で有効であった。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。