論文の概要: RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos
- arxiv url: http://arxiv.org/abs/2404.06483v1
- Date: Tue, 9 Apr 2024 17:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 13:42:03.022397
- Title: RhythmMamba: Fast Remote Physiological Measurement with Arbitrary Length Videos
- Title(参考訳): RhythmMamba: 任意長ビデオによる高速リモート生理計測
- Authors: Bochao Zou, Zizheng Guo, Xiaocheng Hu, Huimin Ma,
- Abstract要約: 本稿ではRhythmMambaについて紹介する。RhythmMambaはマルチテンポラリマンバを用いて周期パターンと短期トレンドの両方を制約するエンド・ツー・エンドの手法である。
大規模な実験により、RhythmMambaはパラメータを減らし計算複雑性を下げた最先端の性能を示した。
- 参考スコア(独自算出の注目度): 10.132660483466239
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote photoplethysmography (rPPG) is a non-contact method for detecting physiological signals from facial videos, holding great potential in various applications such as healthcare, affective computing, and anti-spoofing. Existing deep learning methods struggle to address two core issues of rPPG simultaneously: extracting weak rPPG signals from video segments with large spatiotemporal redundancy and understanding the periodic patterns of rPPG among long contexts. This represents a trade-off between computational complexity and the ability to capture long-range dependencies, posing a challenge for rPPG that is suitable for deployment on mobile devices. Based on the in-depth exploration of Mamba's comprehension of spatial and temporal information, this paper introduces RhythmMamba, an end-to-end Mamba-based method that employs multi-temporal Mamba to constrain both periodic patterns and short-term trends, coupled with frequency domain feed-forward to enable Mamba to robustly understand the quasi-periodic patterns of rPPG. Extensive experiments show that RhythmMamba achieves state-of-the-art performance with reduced parameters and lower computational complexity. The proposed RhythmMamba can be applied to video segments of any length without performance degradation. The codes are available at https://github.com/zizheng-guo/RhythmMamba.
- Abstract(参考訳): リモート光胸腺造影法(Remote Photoplethysmography, RPPG)は、顔画像から生理的信号を検出する非接触法であり、医療、感情コンピューティング、アンチ・スプーフィングなどの様々な応用において大きな可能性を秘めている。
既存のディープラーニング手法では,rPPGの時間的冗長度が大きいビデオセグメントから弱いrPPG信号を抽出し,長いコンテキストにおけるrPPGの周期的パターンを理解するという,rPPGの2つの問題に同時に対処することが困難である。
これは、計算複雑性と長距離依存関係をキャプチャする能力のトレードオフであり、モバイルデバイスへのデプロイに適したrPPGにとっての課題である。
本稿では,空間的・時間的情報に関するマンバの深い理解に基づいて,RhythmMambaを紹介する。RhythmMambaは,複数の時間的マンバを用いた,周期的パターンと短期的傾向の両方を制約する手法で,周波数領域のフィードフォワードと組み合わせることで,マンバがRPPGの準周期的パターンをしっかりと理解できるようにする。
大規模な実験により、RhythmMambaはパラメータの削減と計算複雑性の低減により最先端のパフォーマンスを達成することが示された。
提案したRhythmMambaは、性能劣化のない任意の長さのビデオセグメントに適用できる。
コードはhttps://github.com/zizheng-guo/RhythmMamba.comで公開されている。
関連論文リスト
- SpectralMamba: Efficient Mamba for Hyperspectral Image Classification [39.18999103115206]
リカレントニューラルネットワークとトランスフォーマーは、ハイパースペクトル(HS)イメージングにおけるほとんどの応用を支配している。
我々は、HS画像分類のための効率的なディープラーニングフレームワークを組み込んだ新しい状態空間モデルであるSpectralMambaを提案する。
SpectralMambaは、パフォーマンスと効率の両面から、驚くほど有望な勝利を生み出している。
論文 参考訳(メタデータ) (2024-04-12T14:12:03Z) - MambaMIL: Enhancing Long Sequence Modeling with Sequence Reordering in
Computational Pathology [10.933433327636918]
MIL(Multiple Instance Learning)は、WSI(Whole Slide Images)内の識別的特徴表現を計算病理学で抽出する主要なパラダイムとして登場した。
本稿では,線形複雑度を持つ長周期モデリングのために,Selective Scan Space State Sequential Model(Mamba)をMIL(Multiple Instance Learning)に組み込む。
提案するフレームワークは,最先端のMIL手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-03-11T15:17:25Z) - RhythmFormer: Extracting rPPG Signals Based on Hierarchical Temporal
Periodic Transformer [17.751885452773983]
本稿では,r周期性の準周期特性を明示的に活用することにより,r信号の完全エンドツーエンド変換手法を提案する。
融合ステムはr特徴に対する自己注意を効果的に導くために提案され、既存の手法に容易に移行し、その性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2024-02-20T07:56:02Z) - Spatial Decomposition and Temporal Fusion based Inter Prediction for
Learned Video Compression [59.632286735304156]
学習ビデオ圧縮のための空間分解と時間融合に基づく相互予測を提案する。
SDDに基づく動きモデルと長時間の時間的融合により,提案した学習ビデオはより正確な相互予測コンテキストを得ることができる。
論文 参考訳(メタデータ) (2024-01-29T03:30:21Z) - Vivim: a Video Vision Mamba for Medical Video Object Segmentation [12.408219091543295]
本稿では、医療用ビデオオブジェクトセグメンテーションタスクのための一般的なビデオビジョン・マンバベースのフレームワークbftextVivimを提案する。
我々のビビムは、設計したテンポラルマンバブロックにより、長期の時間的表現を様々なスケールのシーケンスに効果的に圧縮することができる。
また,医用画像の曖昧な病変に対するビビムの識別能力を高めるための境界認識制約も導入した。
論文 参考訳(メタデータ) (2024-01-25T13:27:03Z) - Dynamic Spectrum Mixer for Visual Recognition [17.180863898764194]
動的スペクトルミキサー (DSM) という,コンテンツ適応型だが計算効率のよい構造を提案する。
DSMはコサイン変換を用いて周波数領域におけるトークンの相互作用を表す。
ログ線形複雑性で長期空間依存を学習することができる。
論文 参考訳(メタデータ) (2023-09-13T04:51:15Z) - No-frills Temporal Video Grounding: Multi-Scale Neighboring Attention
and Zoom-in Boundary Detection [52.03562682785128]
時間的ビデオグラウンドティングは、未編集のビデオから言語クエリの時間間隔を取得することを目的としている。
テレビGにおける重要な課題は、低SNR(Semantic Noise Ratio)による低SNRの性能低下である。
本稿では,2つのコアモジュールからなる非フリーズTVGモデルを提案する。
論文 参考訳(メタデータ) (2023-07-20T04:12:10Z) - HyRSM++: Hybrid Relation Guided Temporal Set Matching for Few-shot
Action Recognition [51.2715005161475]
そこで本研究では,数発のアクション認識のための時間的マッチング手法として,ハイブリッドリレーションド・テンポラル・セット・マッチングを提案する。
HyRSM++の中核となる考え方は、すべてのビデオをタスクに統合して差別的な表現を学ぶことである。
提案手法は,様々な撮影条件下での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-01-09T13:32:50Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。