Fugu-MT 論文翻訳(概要): PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer

論文の概要: PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer

arxiv url: http://arxiv.org/abs/2302.03548v1
Date: Tue, 7 Feb 2023 15:56:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-08 15:58:32.789812
Title: PhysFormer++: Facial Video-based Physiological Measurement with SlowFast Temporal Difference Transformer
Title（参考訳）: PhysFormer++:低速時間差変換器を用いた顔面映像に基づく生理的計測
Authors: Zitong Yu, Yuming Shen, Jingang Shi, Hengshuang Zhao, Yawen Cui, Jiehua Zhang, Philip Torr and Guoying Zhao
Abstract要約: 最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。 4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
参考スコア（独自算出の注目度）: 76.40106756572644
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Remote photoplethysmography (rPPG), which aims at measuring heart activities and physiological signals from facial video without any contact, has great potential in many applications (e.g., remote healthcare and affective computing). Recent deep learning approaches focus on mining subtle rPPG clues using convolutional neural networks with limited spatio-temporal receptive fields, which neglect the long-range spatio-temporal perception and interaction for rPPG modeling. In this paper, we propose two end-to-end video transformer based architectures, namely PhysFormer and PhysFormer++, to adaptively aggregate both local and global spatio-temporal features for rPPG representation enhancement. As key modules in PhysFormer, the temporal difference transformers first enhance the quasi-periodic rPPG features with temporal difference guided global attention, and then refine the local spatio-temporal representation against interference. To better exploit the temporal contextual and periodic rPPG clues, we also extend the PhysFormer to the two-pathway SlowFast based PhysFormer++ with temporal difference periodic and cross-attention transformers. Furthermore, we propose the label distribution learning and a curriculum learning inspired dynamic constraint in frequency domain, which provide elaborate supervisions for PhysFormer and PhysFormer++ and alleviate overfitting. Comprehensive experiments are performed on four benchmark datasets to show our superior performance on both intra- and cross-dataset testings. Unlike most transformer networks needed pretraining from large-scale datasets, the proposed PhysFormer family can be easily trained from scratch on rPPG datasets, which makes it promising as a novel transformer baseline for the rPPG community.
Abstract（参考訳）: RPPG(Remote Photoplethysmography)は、接触のない顔画像から心臓活動や生理的信号を測定することを目的としており、多くの応用(例えば、遠隔医療や情動コンピューティング)において大きな可能性を秘めている。近年の深層学習手法は,rPPGモデリングにおける長距離時空間知覚と相互作用を無視した時空間受容場を限定した畳み込みニューラルネットワークを用いた微妙なrPPG手がかりのマイニングに重点を置いている。本稿では,rppg表現エンハンスメントのために,ローカルとグローバルの両方の時空間的特徴を適応的に集約する2つのエンドツーエンドビデオトランスフォーマアーキテクチャ,physformerとphysformer++を提案する。 PhysFormerのキーモジュールとして、時間差変換器は、まず、時間差を導いた大域的注意を伴って準周期的なrPPG特性を高め、干渉に対する局所時空間表現を洗練させる。時間的文脈および周期的なrPPGヒントをよりうまく活用するために、PhysFormerを2経路SlowFastベースのPhysFormer++に拡張し、時間的差分周期変換とクロスアテンション変換を行う。さらに,周波数領域における動的制約に触発されたラベル分布学習とカリキュラム学習を提案し,physformer と physformer++ の綿密な監督を行い,オーバーフィッティングを緩和する。 4つのベンチマークデータセットで総合的な実験を行い、データ内テストとクロスデータセットテストの両方で優れたパフォーマンスを示す。大規模なデータセットから事前トレーニングを必要とするほとんどのトランスフォーマーネットワークとは異なり、提案されたPhysFormerファミリーは、rPPGデータセットをスクラッチから簡単にトレーニングすることができる。

関連論文リスト

Multivariate Long-term Time Series Forecasting with Fourier Neural Filter [55.09326865401653]
我々はFNFをバックボーンとして、DBDをアーキテクチャとして導入し、空間時間モデルのための優れた学習能力と最適な学習経路を提供する。 FNFは、局所時間領域とグローバル周波数領域の情報処理を単一のバックボーン内で統合し、空間的モデリングに自然に拡張することを示す。
論文参考訳（メタデータ） (2025-06-10T18:40:20Z)
Efficient and Robust Multidimensional Attention in Remote Physiological Sensing through Target Signal Constrained Factorization [7.947387272047604]
マルチモーダルビデオ入力からの光胸腺造影(rRSP)信号と呼吸(rRSP)信号の同時推定を目的とした,効率的なデュアルブランチ3D-CNNアーキテクチャであるMMRPhysを提案する。 TSFMを用いたMMRPhysは、リアルタイムアプリケーションに適した最小の推論レイテンシを維持しつつ、RRSP推定のための領域シフトの一般化において最先端の手法を著しく上回ることを示す。
論文参考訳（メタデータ） (2025-05-11T15:20:45Z)
PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing [49.243031514520794]
LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。 PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
論文参考訳（メタデータ） (2025-05-06T15:18:38Z)
PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba [20.435381963248787]
従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。 PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
論文参考訳（メタデータ） (2024-09-18T14:48:50Z)
PhysMamba: State Space Duality Model for Remote Physiological Measurement [20.441281420017656]
RBFC(Remote Photoplethysmography)は、感情モニタリング、医療支援、対面スプーフィングなどの応用に用いられている。制御された実験室の設定とは異なり、現実世界の環境は、しばしば動きの人工物やノイズを含む。状態空間双対モデルであるPhysMambaを提案する。この手法により、ネットワークはよりリッチでより代表的な特徴を学習し、ノイズのある条件下で堅牢性を高めることができる。
論文参考訳（メタデータ） (2024-08-02T07:52:28Z)
Dual-path TokenLearner for Remote Photoplethysmography-based Physiological Measurement with Facial Videos [24.785755814666086]
本稿では,学習可能なトークンの概念を利用して,ビデオのグローバルな視点から空間的・時間的情報的コンテキストを統合する。 TTL(Temporal TokenLearner)は、頭部運動などの時間的乱れを排除し、心拍の準周期パターンを推定するように設計されている。
論文参考訳（メタデータ） (2023-08-15T13:45:45Z)
TransformerG2G: Adaptive time-stepping for learning temporal graph embeddings using transformers [2.2120851074630177]
本研究では,不確実な定量化を伴うグラフ埋め込みモデルであるTransformerG2Gを開発し,時間的グラフの時間的ダイナミクスを学習する。提案したTransformerG2Gモデルが従来のマルチステップ法より優れていることを示す。注意重みを調べることで、時間的依存関係を解明し、影響力のある要素を特定し、グラフ構造内の複雑な相互作用についての洞察を得ることができる。
論文参考訳（メタデータ） (2023-07-05T18:34:22Z)
Deeply-Coupled Convolution-Transformer with Spatial-temporal Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文参考訳（メタデータ） (2023-04-27T12:16:44Z)
ETLP: Event-based Three-factor Local Plasticity for online learning with neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文参考訳（メタデータ） (2023-01-19T19:45:42Z)
Unsupervised inter-frame motion correction for whole-body dynamic PET using convolutional long short-term memory in a convolutional neural network [9.349668170221975]
我々は、フレーム間の身体の動きを補正するための教師なしのディープラーニングベースのフレームワークを開発する。運動推定ネットワークは、畳み込み長短期記憶層を組み合わせた畳み込みニューラルネットワークである。トレーニング後,提案したネットワークの動作推定時間は,従来の登録ベースラインの約460倍の速度であった。
論文参考訳（メタデータ） (2022-06-13T17:38:16Z)
PhysFormer: Facial Video-based Physiological Measurement with Temporal Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文参考訳（メタデータ） (2021-11-23T18:57:11Z)
Adaptive Latent Space Tuning for Non-Stationary Distributions [62.997667081978825]
本稿では,ディープエンコーダ・デコーダ方式cnnの低次元潜在空間の適応チューニング法を提案する。粒子加速器における時間変動荷電粒子ビームの特性を予測するためのアプローチを実証する。
論文参考訳（メタデータ） (2021-05-08T03:50:45Z)
Video-based Remote Physiological Measurement via Cross-verified Feature Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文参考訳（メタデータ） (2020-07-16T09:39:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。