論文の概要: GVT2RPM: An Empirical Study for General Video Transformer Adaptation to Remote Physiological Measurement
- arxiv url: http://arxiv.org/abs/2406.13136v1
- Date: Wed, 19 Jun 2024 00:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 23:38:44.333478
- Title: GVT2RPM: An Empirical Study for General Video Transformer Adaptation to Remote Physiological Measurement
- Title(参考訳): GVT2RPM:遠隔生理計測への一般ビデオトランスフォーマー適応に関する実証的研究
- Authors: Hao Wang, Euijoon Ahn, Jinman Kim,
- Abstract要約: トレーニング設計,すなわちデータ前処理とネットワーク構成が,RPMに適用されたモデル性能に与える影響について検討する。
ビデオ変換器の構造に基づいて、信号特徴抽出に必要なRPMの高密度時間情報と整合するように、その時間的階層を設定する。
- 参考スコア(独自算出の注目度): 14.4447157947507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote physiological measurement (RPM) is an essential tool for healthcare monitoring as it enables the measurement of physiological signs, e.g., heart rate, in a remote setting via physical wearables. Recently, with facial videos, we have seen rapid advancements in video-based RPMs. However, adopting facial videos for RPM in the clinical setting largely depends on the accuracy and robustness (work across patient populations). Fortunately, the capability of the state-of-the-art transformer architecture in general (natural) video understanding has resulted in marked improvements and has been translated to facial understanding, including RPM. However, existing RPM methods usually need RPM-specific modules, e.g., temporal difference convolution and handcrafted feature maps. Although these customized modules can increase accuracy, they are not demonstrated for their robustness across datasets. Further, due to their customization of the transformer architecture, they cannot use the advancements made in general video transformers (GVT). In this study, we interrogate the GVT architecture and empirically analyze how the training designs, i.e., data pre-processing and network configurations, affect the model performance applied to RPM. Based on the structure of video transformers, we propose to configure its spatiotemporal hierarchy to align with the dense temporal information needed in RPM for signal feature extraction. We define several practical guidelines and gradually adapt GVTs for RPM without introducing RPM-specific modules. Our experiments demonstrate favorable results to existing RPM-specific module counterparts. We conducted extensive experiments with five datasets using intra-dataset and cross-dataset settings. We highlight that the proposed guidelines GVT2RPM can be generalized to any video transformers and is robust to various datasets.
- Abstract(参考訳): リモート生理計測(Remote physiological Measurement, RPM)は、身体ウェアラブルを介して遠隔地における生理的兆候(例えば心拍数)の測定を可能にする医療監視に不可欠なツールである。
近年,顔画像ではビデオベースのRPMが急速に進歩している。
しかし, 臨床現場では, RPM の顔画像の採用は, 精度と頑健性(患者集団間での作業)に大きく依存する。
幸いなことに、一般的な(自然な)ビデオ理解における最先端のトランスフォーマーアーキテクチャの能力は、顕著な改善をもたらし、RPMを含む顔理解に変換されている。
しかし、既存のRPM法は一般にRPM固有のモジュール、例えば時間差畳み込みや手作りの特徴写像を必要とする。
これらのカスタマイズされたモジュールは精度を高めることができるが、データセット間の堅牢性については示されていない。
さらに、トランスアーキテクチャのカスタマイズにより、一般的なビデオトランス(GVT)の進歩を利用できない。
本研究では、GVTアーキテクチャを疑問視し、トレーニング設計、すなわちデータ前処理とネットワーク構成がRPMに適用されたモデル性能に与える影響を実証的に分析する。
ビデオ変換器の構造に基づいて、信号特徴抽出に必要なRPMの高密度時間情報と整合する時空間階層を構成する。
我々は,いくつかの実践的ガイドラインを定義し,RPM固有のモジュールを導入することなく,徐々にGVTをRPMに適用する。
実験の結果,既存のRPM固有のモジュールに対して良好な結果が得られた。
データセット内設定とデータセット間設定を用いて,5つのデータセットを用いた広範囲な実験を行った。
提案したガイドラインであるGVT2RPMは、任意のビデオトランスフォーマーに一般化することができ、様々なデータセットに対して堅牢である。
関連論文リスト
- Improved EATFormer: A Vision Transformer for Medical Image Classification [0.0]
本稿では,ビジョントランスフォーマを用いた医用画像分類のための改良されたアルゴリズムベースのトランスフォーマアーキテクチャを提案する。
提案したEATFormerアーキテクチャは、畳み込みニューラルネットワークとビジョントランスフォーマーの長所を組み合わせたものだ。
Chest X-rayデータセットとKvasirデータセットの実験結果から,提案したEATFormerはベースラインモデルと比較して予測速度と精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2024-03-19T21:40:20Z) - Refined Temporal Pyramidal Compression-and-Amplification Transformer for
3D Human Pose Estimation [26.61672772233569]
ビデオシーケンス中の人間の3Dポーズを正確に推定するには、精度とよく構造化されたアーキテクチャの両方が必要である。
本稿では,RTPCA(Refined Temporal Pyramidal Compression-and-Amplification)変換器を紹介する。
本稿では,Human3.6M,HumanEva-I,MPI-INF-3DHPベンチマーク上でのRTPCAの有効性を示す。
論文 参考訳(メタデータ) (2023-09-04T05:25:10Z) - Convolutional Monge Mapping Normalization for learning on sleep data [63.22081662149488]
我々は、CMMN(Convolutional Monge Mapping Normalization)と呼ばれる新しい手法を提案する。
CMMNは、そのパワースペクトル密度(PSD)をトレーニングデータに基づいて推定されるワッサーシュタインバリセンタに適応させるために、信号をフィルタリングする。
睡眠脳波データに関する数値実験により、CMMNはニューラルネットワークアーキテクチャから独立して、顕著で一貫したパフォーマンス向上をもたらすことが示された。
論文 参考訳(メタデータ) (2023-05-30T08:24:01Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z) - Modular Simulation Framework for Process Variation Analysis of
MRAM-based Deep Belief Networks [2.0222827433041535]
Magnetic Random-Access Memory (MRAM)ベースのpビットニューロモルフィックコンピューティングデバイスは、Boltzmann Machines (RBMs) における機械学習操作をコンパクトかつ効率的に実現する手段として、関心が高まりつつある。
活性化の制限は、MRAM装置のエネルギー障壁に依存し、シグモイド関数の電圧依存性挙動に対するプロセス変動の影響を評価することが不可欠である。
ここでは、トランスポート可能なPythonスクリプトを開発し、機械学習アプリケーションの正確性に基づいてデバイス次元の変化の下で出力の変動を分析する。
論文 参考訳(メタデータ) (2020-02-03T17:20:21Z) - Data-Driven Prediction Model of Components Shift during Reflow Process
in Surface Mount Technology [1.4680035572775534]
表面実装技術 (SMT) では, ハンダパッドに装着した部品は再流時に移動する。
この能力は自己配向として知られており、溶融したはんだペーストの流動動的挙動の結果である。
本研究の目的は、x方向とy方向のリフロー中のコンポーネントの動きを予測する機械学習モデルを開発することである。
論文 参考訳(メタデータ) (2020-01-27T08:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。