論文の概要: Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement
- arxiv url: http://arxiv.org/abs/2407.08507v1
- Date: Thu, 11 Jul 2024 13:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:19:55.936990
- Title: Bootstrapping Vision-language Models for Self-supervised Remote Physiological Measurement
- Title(参考訳): 自己監督型遠隔生理計測のためのブートストラップ視覚言語モデル
- Authors: Zijie Yue, Miaojing Shi, Hanli Wang, Shuai Ding, Qijun Chen, Shanlin Yang,
- Abstract要約: 本稿では,一般的な視覚言語モデルとリモート生理計測タスクをうまく統合する新しいフレームワークを提案する。
フレームワークを最適化する一連の生成的かつコントラスト的な学習メカニズムを開発した。
本手法は,視覚・テキストモダリティにおける周波数関連知識の消化・調整にVLMを初めて適用した手法である。
- 参考スコア(独自算出の注目度): 26.480515954528848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Facial video-based remote physiological measurement is a promising research area for detecting human vital signs (e.g., heart rate, respiration frequency) in a non-contact way. Conventional approaches are mostly supervised learning, requiring extensive collections of facial videos and synchronously recorded photoplethysmography (PPG) signals. To tackle it, self-supervised learning has recently gained attentions; due to the lack of ground truth PPG signals, its performance is however limited. In this paper, we propose a novel self-supervised framework that successfully integrates the popular vision-language models (VLMs) into the remote physiological measurement task. Given a facial video, we first augment its positive and negative video samples with varying rPPG signal frequencies. Next, we introduce a frequency-oriented vision-text pair generation method by carefully creating contrastive spatio-temporal maps from positive and negative samples and designing proper text prompts to describe their relative ratios of signal frequencies. A pre-trained VLM is employed to extract features for these formed vision-text pairs and estimate rPPG signals thereafter. We develop a series of generative and contrastive learning mechanisms to optimize the VLM, including the text-guided visual map reconstruction task, the vision-text contrastive learning task, and the frequency contrastive and ranking task. Overall, our method for the first time adapts VLMs to digest and align the frequency-related knowledge in vision and text modalities. Extensive experiments on four benchmark datasets demonstrate that it significantly outperforms state of the art self-supervised methods.
- Abstract(参考訳): 顔画像に基づく遠隔生理計測は、ヒトのバイタルサイン(心拍数、呼吸頻度など)を非接触で検出するための有望な研究分野である。
従来のアプローチは主に教師付き学習であり、顔ビデオの広範な収集と同期的に記録された光胸腺造影(PPG)信号が必要である。
自己教師型学習は近年注目されているが, 基礎的真偽のPSG信号が欠如しているため, 性能は限られている。
本稿では,一般的な視覚言語モデル(VLM)を遠隔生理計測タスクに統合する,新たな自己教師型フレームワークを提案する。
顔の映像が与えられたとき、まず正負のサンプルをrPPG信号の周波数で増強する。
次に、正と負のサンプルから対照的な時空間マップを慎重に作成し、信号周波数の相対比を記述するための適切なテキストプロンプトを設計することで、周波数指向の視覚テキストペア生成手法を提案する。
事前訓練されたVLMを用いて、これらの生成した視覚テキストペアの特徴を抽出し、その後のrPPG信号を推定する。
本稿では,テキスト誘導型視覚地図再構成タスク,視覚テキストコントラスト学習タスク,周波数コントラスト・ランキングタスクなど,VLMを最適化するための生成的・コントラスト学習機構の開発を行う。
全体として,本手法は視覚・テキストモダリティにおける周波数関連知識の消化・調整に初めてVLMを適用した手法である。
4つのベンチマークデータセットの大規模な実験により、最先端の自己管理手法を著しく上回っていることが示された。
関連論文リスト
- SiNC+: Adaptive Camera-Based Vitals with Unsupervised Learning of Periodic Signals [6.458510829614774]
信号回帰のための非競合型教師なし学習フレームワークを初めて提示する。
正常な生理的帯域内におけるスパースパワースペクトルの促進と,周期的な信号の学習にはパワースペクトルのバッチによるばらつきが十分であることがわかった。
論文 参考訳(メタデータ) (2024-04-20T19:17:40Z) - Dual-path TokenLearner for Remote Photoplethysmography-based
Physiological Measurement with Facial Videos [24.785755814666086]
本稿では,学習可能なトークンの概念を利用して,ビデオのグローバルな視点から空間的・時間的情報的コンテキストを統合する。
TTL(Temporal TokenLearner)は、頭部運動などの時間的乱れを排除し、心拍の準周期パターンを推定するように設計されている。
論文 参考訳(メタデータ) (2023-08-15T13:45:45Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Facial Video-based Remote Physiological Measurement via Self-supervised
Learning [9.99375728024877]
本稿では,映像からr信号を推定する新たなフレームワークを提案する。
負のサンプルは、非線形信号周波数変換を行う学習可能な周波数モジュールを介して生成される。
次に、強化サンプルからr信号を推定するために、局所的なrエキスパートアグリゲーションモジュールを導入する。
異なる顔領域からの相補的な脈動情報を符号化し、それらを1つのr予測に集約する。
論文 参考訳(メタデータ) (2022-10-27T13:03:23Z) - TCGL: Temporal Contrastive Graph for Self-supervised Video
Representation Learning [79.77010271213695]
本稿では,TCGL(Temporal Contrastive Graph Learning)という,ビデオの自己教師型学習フレームワークを提案する。
TCGLは、フレームとスニペットの順序に関する以前の知識をグラフ構造、すなわち、インター/インタースニペットの時間トラストグラフ(TCG)に統合します。
ラベルなしビデオの監視信号を生成するために,適応スニペット順序予測(ASOP)モジュールを導入する。
論文 参考訳(メタデータ) (2021-12-07T09:27:56Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - The Way to my Heart is through Contrastive Learning: Remote
Photoplethysmography from Unlabelled Video [10.479541955106328]
ビデオから生理的信号を確実に推定する能力は、低コストで臨床前の健康モニタリングにおいて強力なツールである。
本稿では, 人の顔や皮膚の観察から血液量の変化を計測するリモート光胸腺造影法(r)の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-11-18T15:21:33Z) - Relational Graph Learning on Visual and Kinematics Embeddings for
Accurate Gesture Recognition in Robotic Surgery [84.73764603474413]
本稿では,マルチモーダルグラフネットワーク(MRG-Net)の新たなオンラインアプローチを提案し,視覚情報とキネマティクス情報を動的に統合する。
本手法の有効性は, JIGSAWSデータセット上での最先端の成果で実証された。
論文 参考訳(メタデータ) (2020-11-03T11:00:10Z) - Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude
Estimation [0.0]
本稿では,慣性計測ユニット(IMU)のジャイロスコープを地中真実データを用いて識別する学習手法を提案する。
得られたアルゴリズムは、(目に見えない)テストシーケンスで最先端の処理を行う。
論文 参考訳(メタデータ) (2020-02-25T08:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。