論文の概要: TransPPG: Two-stream Transformer for Remote Heart Rate Estimate
- arxiv url: http://arxiv.org/abs/2201.10873v1
- Date: Wed, 26 Jan 2022 11:11:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 19:01:46.522048
- Title: TransPPG: Two-stream Transformer for Remote Heart Rate Estimate
- Title(参考訳): TransPPG:遠隔心拍推定用2ストリーム変圧器
- Authors: Jiaqi Kang, Su Yang, Weishan Zhang
- Abstract要約: 遠隔光麻痺(r)を用いた非接触顔画像による心拍数推定は,多くの応用において大きな可能性を秘めている。
しかし、現実的な応用には、頭部の動きや不安定な照明を伴う複雑な環境下であっても、正確な結果が必要である。
オーバーラップを用いたマルチスケール適応空間・テンポラルマップと呼ばれる特徴マップに,各顔映像シーケンスを埋め込む新しい映像埋め込み手法を提案する。
- 参考スコア(独自算出の注目度): 4.866431869728018
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Non-contact facial video-based heart rate estimation using remote
photoplethysmography (rPPG) has shown great potential in many applications
(e.g., remote health care) and achieved creditable results in constrained
scenarios. However, practical applications require results to be accurate even
under complex environment with head movement and unstable illumination.
Therefore, improving the performance of rPPG in complex environment has become
a key challenge. In this paper, we propose a novel video embedding method that
embeds each facial video sequence into a feature map referred to as Multi-scale
Adaptive Spatial and Temporal Map with Overlap (MAST_Mop), which contains not
only vital information but also surrounding information as reference, which
acts as the mirror to figure out the homogeneous perturbations imposed on
foreground and background simultaneously, such as illumination instability.
Correspondingly, we propose a two-stream Transformer model to map the MAST_Mop
into heart rate (HR), where one stream follows the pulse signal in the facial
area while the other figures out the perturbation signal from the surrounding
region such that the difference of the two channels leads to adaptive noise
cancellation. Our approach significantly outperforms all current
state-of-the-art methods on two public datasets MAHNOB-HCI and VIPL-HR. As far
as we know, it is the first work with Transformer as backbone to capture the
temporal dependencies in rPPGs and apply the two stream scheme to figure out
the interference from backgrounds as mirror of the corresponding perturbation
on foreground signals for noise tolerating.
- Abstract(参考訳): リモートフォトプレチモグラフィ(rppg)を用いた非接触型顔画像を用いた心拍数推定は、多くの応用(遠隔医療など)において大きな可能性を示しており、制約のあるシナリオで信頼できる結果を得た。
しかし, 頭部運動や不安定照明を伴う複雑な環境下においても, 結果の正確性が要求される。
そのため,複雑な環境下でのrPPGの性能向上が課題となっている。
本稿では,重要情報だけでなく,周辺情報を参照として含むマルチスケール適応的空間的・時間的地図(mast_mop)と呼ばれる特徴地図に,各顔映像列を埋め込み,照度不安定など前景と背景に課される均質な摂動を鏡として行う新しい映像埋め込み手法を提案する。
そこで本研究では,MAST_Mopを心拍数(HR)にマッピングする2ストリームトランスフォーマーモデルを提案する。
提案手法は,MAHNOB-HCIとVIPL-HRの2つの公開データセットにおいて,現在の最先端手法を著しく上回っている。
我々の知る限り、Transformer をバックボーンとして初めて、rPPG の時間的依存関係をキャプチャし、2つのストリームスキームを適用して、ノイズ許容のための前景信号に対する対応する摂動のミラーとして背景からの干渉を検出する。
関連論文リスト
- Adaptive Semantic-Enhanced Denoising Diffusion Probabilistic Model for Remote Sensing Image Super-Resolution [7.252121550658619]
Denoising Diffusion Probabilistic Model (DDPM) は画像再構成において有望な性能を示した。
DDPMが生成する高周波の詳細は、モデルが長距離の意味的文脈を見落としているため、HR画像との不一致に悩まされることが多い。
DDPMの詳細な保存能力を高めるために,適応的意味強化DDPM(ASDDPM)を提案する。
論文 参考訳(メタデータ) (2024-03-17T04:08:58Z) - Dual-path TokenLearner for Remote Photoplethysmography-based
Physiological Measurement with Facial Videos [24.785755814666086]
本稿では,学習可能なトークンの概念を利用して,ビデオのグローバルな視点から空間的・時間的情報的コンテキストを統合する。
TTL(Temporal TokenLearner)は、頭部運動などの時間的乱れを排除し、心拍の準周期パターンを推定するように設計されている。
論文 参考訳(メタデータ) (2023-08-15T13:45:45Z) - Learning Feature Recovery Transformer for Occluded Person
Re-identification [71.18476220969647]
本稿では,FRT(Feature Recovery Transformer)と呼ばれる2つの課題を同時に解決する手法を提案する。
特徴マッチング時のノイズの干渉を低減するため,両画像に現れる可視領域に着目し,類似性を計算するための可視グラフを開発した。
2つ目の課題は、グラフの類似性に基づいて、各クエリ画像に対して、ギャラリー内の$k$-nearestの隣人の特徴セットを利用して、完全な特徴を復元するリカバリトランスフォーマを提案することである。
論文 参考訳(メタデータ) (2023-01-05T02:36:16Z) - Learning Motion-Robust Remote Photoplethysmography through Arbitrary
Resolution Videos [31.512551653273373]
実世界の長期健康モニタリングのシナリオでは、参加者と頭の動きの距離は時間によって異なり、その結果、不正確なrの測定結果となる。
本稿では,カメラと参加者の一定距離を設計した従来のRモデルと異なり,PFE (physiological signal feature extract block) とTFA (temporal face alignment block) の2つのプラグ・アンド・プレイブロックを提案する。
論文 参考訳(メタデータ) (2022-11-30T11:50:08Z) - Blur Interpolation Transformer for Real-World Motion from Blur [52.10523711510876]
本稿では, ボケの時間的相関を解き明かすために, 符号化されたブラー変換器(BiT)を提案する。
マルチスケール残留スウィン変圧器ブロックに基づいて、両端の時間的監督と時間対称なアンサンブル戦略を導入する。
さらに,1対1のぼやけたビデオペアの最初の実世界のデータセットを収集するハイブリッドカメラシステムを設計する。
論文 参考訳(メタデータ) (2022-11-21T13:10:10Z) - Deep Reinforcement Learning for IRS Phase Shift Design in
Spatiotemporally Correlated Environments [93.30657979626858]
本稿では,チャネル相関と目的地動きを考慮したディープアクター批判アルゴリズムを提案する。
チャネルが時間的に相関している場合、コンバージェンスを抑制する方法において、関数近似を伴う状態表現にSNRを組み込むことが示される。
論文 参考訳(メタデータ) (2022-11-02T22:07:36Z) - Facial Video-based Remote Physiological Measurement via Self-supervised
Learning [9.99375728024877]
本稿では,映像からr信号を推定する新たなフレームワークを提案する。
負のサンプルは、非線形信号周波数変換を行う学習可能な周波数モジュールを介して生成される。
次に、強化サンプルからr信号を推定するために、局所的なrエキスパートアグリゲーションモジュールを導入する。
異なる顔領域からの相補的な脈動情報を符号化し、それらを1つのr予測に集約する。
論文 参考訳(メタデータ) (2022-10-27T13:03:23Z) - DRNet: Decomposition and Reconstruction Network for Remote Physiological
Measurement [39.73408626273354]
既存の方法は一般に2つのグループに分けられる。
1つ目は、顔ビデオから微妙な音量パルス(BVP)信号を抽出することに焦点を当てているが、顔ビデオコンテンツを支配するノイズを明示的にモデル化することはめったにない。
第二に、ノイズの多いデータを直接モデリングすることに焦点を当てており、これらの厳密なランダムノイズの規則性の欠如により、最適以下の性能が得られる。
論文 参考訳(メタデータ) (2022-06-12T07:40:10Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Intrinsic Temporal Regularization for High-resolution Human Video
Synthesis [59.54483950973432]
時間整合性は、画像処理パイプラインをビデオドメインに拡張する上で重要である。
フレームジェネレーターを介して本質的信頼度マップを推定し,運動推定を調節する,本質的な時間正規化方式を提案する。
我々は、本質的な時間的規制をシングルイメージジェネレータに適用し、強力な「Internet」が512Times512$の人間のアクションビデオを生成します。
論文 参考訳(メタデータ) (2020-12-11T05:29:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。