論文の概要: Dual-path TokenLearner for Remote Photoplethysmography-based
Physiological Measurement with Facial Videos
- arxiv url: http://arxiv.org/abs/2308.07771v1
- Date: Tue, 15 Aug 2023 13:45:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 12:41:36.196585
- Title: Dual-path TokenLearner for Remote Photoplethysmography-based
Physiological Measurement with Facial Videos
- Title(参考訳): 遠隔フォトプレチモグラフィ用デュアルパストークンレアナー : 顔ビデオを用いた生理学的計測
- Authors: Wei Qian, Dan Guo, Kun Li, Xilan Tian, Meng Wang
- Abstract要約: 本稿では,学習可能なトークンの概念を利用して,ビデオのグローバルな視点から空間的・時間的情報的コンテキストを統合する。
TTL(Temporal TokenLearner)は、頭部運動などの時間的乱れを排除し、心拍の準周期パターンを推定するように設計されている。
- 参考スコア(独自算出の注目度): 24.785755814666086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote photoplethysmography (rPPG) based physiological measurement is an
emerging yet crucial vision task, whose challenge lies in exploring accurate
rPPG prediction from facial videos accompanied by noises of illumination
variations, facial occlusions, head movements, \etc, in a non-contact manner.
Existing mainstream CNN-based models make efforts to detect physiological
signals by capturing subtle color changes in facial regions of interest (ROI)
caused by heartbeats. However, such models are constrained by the limited local
spatial or temporal receptive fields in the neural units. Unlike them, a native
Transformer-based framework called Dual-path TokenLearner (Dual-TL) is proposed
in this paper, which utilizes the concept of learnable tokens to integrate both
spatial and temporal informative contexts from the global perspective of the
video. Specifically, the proposed Dual-TL uses a Spatial TokenLearner (S-TL) to
explore associations in different facial ROIs, which promises the rPPG
prediction far away from noisy ROI disturbances. Complementarily, a Temporal
TokenLearner (T-TL) is designed to infer the quasi-periodic pattern of
heartbeats, which eliminates temporal disturbances such as head movements. The
two TokenLearners, S-TL and T-TL, are executed in a dual-path mode. This
enables the model to reduce noise disturbances for final rPPG signal
prediction. Extensive experiments on four physiological measurement benchmark
datasets are conducted. The Dual-TL achieves state-of-the-art performances in
both intra- and cross-dataset testings, demonstrating its immense potential as
a basic backbone for rPPG measurement. The source code is available at
\href{https://github.com/VUT-HFUT/Dual-TL}{https://github.com/VUT-HFUT/Dual-TL}
- Abstract(参考訳): リモート光胸腺撮影(rPPG)に基づく生理的計測は、新たな重要な視覚課題であり、その課題は、照明のバリエーション、顔の閉塞、頭部の動き、etcなどのノイズを伴う顔ビデオからの正確なrPPG予測を非接触で探索することにある。
既存のCNNベースのモデルは、心拍によって引き起こされる顔領域(ROI)の微妙な色変化を捉え、生理的信号を検出する。
しかし、そのようなモデルは、神経ユニット内の限られた局所的空間的または時間的受容的場によって制約される。
これらと異なり,ビデオのグローバルな視点から空間的・時間的情報的コンテキストを統合するために,学習可能なトークンの概念を利用する,Dual-path TokenLearner(Dual-TL)と呼ばれるネイティブトランスフォーマーベースのフレームワークが提案されている。
具体的には、提案されたDual-TLでは、Spatial TokenLearner(S-TL)を使用して、さまざまな顔ROIの関連を探索する。
相補的に、T-TL(Temporal TokenLearner)は、頭部運動などの時間的乱れを排除し、半周期的な心拍パターンを推定するように設計されている。
2つのTokenLearner、S-TLとT-TLはデュアルパスモードで実行される。
これにより、最終的なrPPG信号予測のためのノイズ障害を低減することができる。
4つの生理学的測定ベンチマークデータセットに関する広範囲な実験を行った。
Dual-TLは、内部およびクロスデータセットテストの両方で最先端のパフォーマンスを達成し、rPPG測定の基本的なバックボーンとして、その潜在能力を実証している。
ソースコードは \href{https://github.com/VUT-HFUT/Dual-TL}{https://github.com/VUT-HFUT/Dual-TL} で入手できる。
関連論文リスト
- PhysMamba: State Space Duality Model for Remote Physiological Measurement [20.441281420017656]
RBFC(Remote Photoplethysmography)は、感情モニタリング、医療支援、対面スプーフィングなどの応用に用いられている。
制御された実験室の設定とは異なり、現実世界の環境は、しばしば動きの人工物やノイズを含む。
状態空間双対モデルであるPhysMambaを提案する。
この手法により、ネットワークはよりリッチでより代表的な特徴を学習し、ノイズのある条件下で堅牢性を高めることができる。
論文 参考訳(メタデータ) (2024-08-02T07:52:28Z) - Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement [26.480515954528848]
本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
論文 参考訳(メタデータ) (2024-07-11T13:45:50Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。
I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文 参考訳(メタデータ) (2023-08-31T05:05:53Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - Learning Motion-Robust Remote Photoplethysmography through Arbitrary
Resolution Videos [31.512551653273373]
実世界の長期健康モニタリングのシナリオでは、参加者と頭の動きの距離は時間によって異なり、その結果、不正確なrの測定結果となる。
本稿では,カメラと参加者の一定距離を設計した従来のRモデルと異なり,PFE (physiological signal feature extract block) とTFA (temporal face alignment block) の2つのプラグ・アンド・プレイブロックを提案する。
論文 参考訳(メタデータ) (2022-11-30T11:50:08Z) - Treatment Learning Causal Transformer for Noisy Image Classification [62.639851972495094]
本研究では,この2値情報「ノイズの存在」を画像分類タスクに組み込んで予測精度を向上させる。
因果的変動推定から動機付け,雑音画像分類のための頑健な特徴表現を潜在生成モデルを用いて推定するトランスフォーマーに基づくアーキテクチャを提案する。
また、パフォーマンスベンチマークのための幅広いノイズ要素を取り入れた、新しいノイズの多い画像データセットも作成する。
論文 参考訳(メタデータ) (2022-03-29T13:07:53Z) - TransPPG: Two-stream Transformer for Remote Heart Rate Estimate [4.866431869728018]
遠隔光麻痺(r)を用いた非接触顔画像による心拍数推定は,多くの応用において大きな可能性を秘めている。
しかし、現実的な応用には、頭部の動きや不安定な照明を伴う複雑な環境下であっても、正確な結果が必要である。
オーバーラップを用いたマルチスケール適応空間・テンポラルマップと呼ばれる特徴マップに,各顔映像シーケンスを埋め込む新しい映像埋め込み手法を提案する。
論文 参考訳(メタデータ) (2022-01-26T11:11:14Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。