論文の概要: FactorizePhys: Matrix Factorization for Multidimensional Attention in Remote Physiological Sensing
- arxiv url: http://arxiv.org/abs/2411.01542v1
- Date: Sun, 03 Nov 2024 12:22:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:39:52.829773
- Title: FactorizePhys: Matrix Factorization for Multidimensional Attention in Remote Physiological Sensing
- Title(参考訳): FactorizePhys: リモート生理学的センシングにおける多次元注意のためのマトリックス因子化
- Authors: Jitesh Joshi, Sos S. Agaian, Youngjun Cho,
- Abstract要約: Factorized Self-Attention Module (FSAM) は、非負行列分解を用いたボクセル埋め込みから多次元の注意を計算する。
提案手法は,空間的,時間的,チャネル的注意を包括的に獲得し,一般的な信号抽出の性能を高めるために,ボクセルの埋め込みを適応的に分解する。
FactorizePhysは、生のビデオフレームから血流パルス信号を推定するためのエンドツーエンドの3D-CNNアーキテクチャである。
- 参考スコア(独自算出の注目度): 10.81951503398909
- License:
- Abstract: Remote photoplethysmography (rPPG) enables non-invasive extraction of blood volume pulse signals through imaging, transforming spatial-temporal data into time series signals. Advances in end-to-end rPPG approaches have focused on this transformation where attention mechanisms are crucial for feature extraction. However, existing methods compute attention disjointly across spatial, temporal, and channel dimensions. Here, we propose the Factorized Self-Attention Module (FSAM), which jointly computes multidimensional attention from voxel embeddings using nonnegative matrix factorization. To demonstrate FSAM's effectiveness, we developed FactorizePhys, an end-to-end 3D-CNN architecture for estimating blood volume pulse signals from raw video frames. Our approach adeptly factorizes voxel embeddings to achieve comprehensive spatial, temporal, and channel attention, enhancing performance of generic signal extraction tasks. Furthermore, we deploy FSAM within an existing 2D-CNN-based rPPG architecture to illustrate its versatility. FSAM and FactorizePhys are thoroughly evaluated against state-of-the-art rPPG methods, each representing different types of architecture and attention mechanism. We perform ablation studies to investigate the architectural decisions and hyperparameters of FSAM. Experiments on four publicly available datasets and intuitive visualization of learned spatial-temporal features substantiate the effectiveness of FSAM and enhanced cross-dataset generalization in estimating rPPG signals, suggesting its broader potential as a multidimensional attention mechanism. The code is accessible at https://github.com/PhysiologicAILab/FactorizePhys.
- Abstract(参考訳): リモート光胸腺撮影(remote Photoplethysmography, RPPG)は、時間空間データを時系列信号に変換することで、非侵襲的な血流パルス信号の抽出を可能にする。
エンドツーエンドのrPPGアプローチの進歩は、特徴抽出に注意機構が不可欠であるこの変換に焦点を当てている。
しかし,既存の手法では空間的,時間的,チャネル的次元で不一致に注意を計算している。
本稿では,非負行列分解を用いたボクセル埋め込みから多次元の注意を共同計算するFactized Self-Attention Module (FSAM)を提案する。
FSAMの有効性を示すために、生ビデオフレームから血流パルス信号を推定するエンドツーエンドの3D-CNNアーキテクチャであるFactizePhysを開発した。
提案手法は,空間的,時間的,チャネル的注意を包括的に獲得し,一般的な信号抽出タスクの性能を向上させるために,ボクセルの埋め込みを適応的に分解する。
さらに、既存の2D-CNNベースのrPPGアーキテクチャにFSAMを配置し、その汎用性を示す。
FSAM と FactorizePhys は、最先端の rPPG 手法に対して徹底的に評価され、それぞれ異なるタイプのアーキテクチャとアテンション機構を表す。
我々は、FSAMのアーキテクチャ決定とハイパーパラメータについて、アブレーション研究を行う。
4つの公開データセットの実験と学習時空間特徴の直感的可視化により、FSAMの有効性が実証され、RPPG信号の推定におけるクロスデータセットの一般化が強化され、多次元アテンション機構としての可能性が示唆された。
コードはhttps://github.com/PhysiologicalAILab/FactorizePhysでアクセスできる。
関連論文リスト
- Toward Motion Robustness: A masked attention regularization framework in remote photoplethysmography [5.743550396843244]
MAR-rはROIローカライゼーションと複雑なモーションアーティファクトの影響を統合するフレームワークである。
MAR-rは、顔クリップのセマンティック一貫性を捉えるために、マスクされた注意規則化機構をrフィールドに採用している。
また、モデルが不正確なROIに過度に適合し、その後パフォーマンスが低下するのを防ぐために、マスキング技術を採用している。
論文 参考訳(メタデータ) (2024-07-09T08:25:30Z) - ASPS: Augmented Segment Anything Model for Polyp Segmentation [77.25557224490075]
SAM(Segment Anything Model)は、ポリープセグメンテーションに先例のないポテンシャルを導入している。
SAMのTransformerベースの構造は、グローバルおよび低周波情報を優先する。
CFAはトレーニング可能なCNNエンコーダブランチと凍結したViTエンコーダを統合し、ドメイン固有の知識の統合を可能にする。
論文 参考訳(メタデータ) (2024-06-30T14:55:32Z) - MDFL: Multi-domain Diffusion-driven Feature Learning [19.298491870280213]
マルチドメイン拡散駆動型特徴学習ネットワーク(MDFL)を提案する。
MDFLはモデルが本当に重視する効果的な情報領域を再定義します。
MDFLは高次元データの特徴抽出性能を著しく向上することを示した。
論文 参考訳(メタデータ) (2023-11-16T02:55:21Z) - Rethinking Superpixel Segmentation from Biologically Inspired Mechanisms [8.24963839394421]
スーパーピクセルセグメンテーションのための拡張スクリーニングモジュール(ESM)と新しい境界認識ラベル(BAL)からなるネットワークアーキテクチャを提案する。
ESMは視覚野の対話的投射機構をシミュレートすることで意味情報を強化する。
BALは、視覚皮質細胞の空間周波数特性をエミュレートし、強い境界粘着性を持つスーパーピクセルの生成を容易にする。
論文 参考訳(メタデータ) (2023-09-23T17:29:38Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Mask-guided Spectral-wise Transformer for Efficient Hyperspectral Image
Reconstruction [127.20208645280438]
ハイパースペクトル画像(HSI)再構成は、2次元計測から3次元空間スペクトル信号を復元することを目的としている。
スペクトル間相互作用のモデル化は、HSI再構成に有用である。
Mask-guided Spectral-wise Transformer (MST) は,HSI再構成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-15T16:59:48Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Non-contact PPG Signal and Heart Rate Estimation with Multi-hierarchical
Convolutional Network [12.119293125608976]
心拍数(HR)は人体の重要な生理的パラメータである。
本研究では,顔ビデオクリップからHRを推定できる,効率的な多階層・畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:04:27Z) - Unsupervised Instance Segmentation in Microscopy Images via Panoptic
Domain Adaptation and Task Re-weighting [86.33696045574692]
病理組織像における教師なし核分割のためのCycle Consistency Panoptic Domain Adaptive Mask R-CNN(CyC-PDAM)アーキテクチャを提案する。
まず,合成画像中の補助的な生成物を除去するための核塗布機構を提案する。
第二に、ドメイン識別器を持つセマンティックブランチは、パンプトレベルのドメイン適応を実現するように設計されている。
論文 参考訳(メタデータ) (2020-05-05T11:08:26Z) - Salient Object Detection Combining a Self-attention Module and a Feature
Pyramid Network [10.81245352773775]
本稿では,新しいピラミッド自己保持モジュール (PSAM) と独立機能補完戦略の採用を提案する。
PSAMでは、よりリッチな高レベルの特徴をキャプチャし、より大きな受容場をモデルにもたらすために、多スケールピラミッド機能の後、自己注意層が装備される。
論文 参考訳(メタデータ) (2020-04-30T03:08:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。