論文の概要: PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing
- arxiv url: http://arxiv.org/abs/2505.03621v1
- Date: Tue, 06 May 2025 15:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.447296
- Title: PhysLLM: Harnessing Large Language Models for Cross-Modal Remote Physiological Sensing
- Title(参考訳): PhysLLM: クロスモーダルなリモート生理学的センシングのための大規模言語モデル
- Authors: Yiping Xie, Bo Zhao, Mingtong Dai, Jian-Ping Zhou, Yue Sun, Tao Tan, Weicheng Xie, Linlin Shen, Zitong Yu,
- Abstract要約: LLM(Large Language Models)は、テキスト中心の設計のため、長距離信号の取得に優れる。
PhysLLMは最先端の精度とロバスト性を実現し、照明のバリエーションや動きのシナリオにまたがる優れた一般化を示す。
- 参考スコア(独自算出の注目度): 49.243031514520794
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Remote photoplethysmography (rPPG) enables non-contact physiological measurement but remains highly susceptible to illumination changes, motion artifacts, and limited temporal modeling. Large Language Models (LLMs) excel at capturing long-range dependencies, offering a potential solution but struggle with the continuous, noise-sensitive nature of rPPG signals due to their text-centric design. To bridge this gap, we introduce PhysLLM, a collaborative optimization framework that synergizes LLMs with domain-specific rPPG components. Specifically, the Text Prototype Guidance (TPG) strategy is proposed to establish cross-modal alignment by projecting hemodynamic features into LLM-interpretable semantic space, effectively bridging the representational gap between physiological signals and linguistic tokens. Besides, a novel Dual-Domain Stationary (DDS) Algorithm is proposed for resolving signal instability through adaptive time-frequency domain feature re-weighting. Finally, rPPG task-specific cues systematically inject physiological priors through physiological statistics, environmental contextual answering, and task description, leveraging cross-modal learning to integrate both visual and textual information, enabling dynamic adaptation to challenging scenarios like variable illumination and subject movements. Evaluation on four benchmark datasets, PhysLLM achieves state-of-the-art accuracy and robustness, demonstrating superior generalization across lighting variations and motion scenarios.
- Abstract(参考訳): リモートプラチスモグラフィー (rPPG) は非接触的な生理的測定を可能にするが、照明の変化、運動アーティファクト、限られた時間的モデリングの影響を受けやすい。
LLM(Large Language Models)は、長い範囲の依存関係を捉え、潜在的な解決策を提供するが、テキスト中心の設計のため、rPPG信号の連続的かつノイズに敏感な性質に苦しむ。
このギャップを埋めるために、LLMとドメイン固有のrPPGコンポーネントを相乗化する協調最適化フレームワークであるPhysLLMを紹介します。
具体的には, LLM解釈可能な意味空間に血行動態の特徴を投影し, 生理的信号と言語的トークンとの表現的ギャップを効果的に埋めることで, クロスモーダルアライメントを確立するためのテキストプロトタイプガイダンス(TPG)戦略を提案する。
さらに、適応時間周波数領域特徴の再重み付けによる信号不安定性の解消のために、新しいDual-Domain Stationary (DDS)アルゴリズムを提案する。
最後に、rPPGタスク固有の手がかりは、生理学的統計、環境文脈応答、タスク記述を通じて、生理学的先行を体系的に注入し、視覚情報とテキスト情報の両方を統合するために、クロスモーダル学習を活用し、可変照明や主題運動のような挑戦的なシナリオへの動的適応を可能にする。
4つのベンチマークデータセットの評価において、PhysLLMは最先端の精度とロバスト性を達成し、照明のバリエーションや動きのシナリオに対して優れた一般化を示す。
関連論文リスト
- Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。
分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。
最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文 参考訳(メタデータ) (2025-04-28T09:00:04Z) - PRAGA: Prototype-aware Graph Adaptive Aggregation for Spatial Multi-modal Omics Analysis [1.1619559582563954]
空間多モードオミクス解析(PRAGA)のためのPRototype-Aware Graph Adaptative Aggregationを提案する。
PRAGAは動的グラフを構築し、潜在意味関係を捉え、空間情報と特徴意味論を包括的に統合する。
学習可能なグラフ構造は、クロスモーダルな知識を学習することで摂動を損なうこともできる。
論文 参考訳(メタデータ) (2024-09-19T12:53:29Z) - Spatial Adaptation Layer: Interpretable Domain Adaptation For Biosignal Sensor Array Applications [0.7499722271664147]
生体信号アレイモデルに適用可能な空間適応層(SAL)を提案する。
また,学習可能なベースライン正規化(LBN)を導入し,ベースライン変動を低減する。
2つのHD-sEMGジェスチャ認識データセットでテストした結果、SALとLBNは通常の配列の標準微調整よりも優れていた。
論文 参考訳(メタデータ) (2024-09-12T14:06:12Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - PhysFormer++: Facial Video-based Physiological Measurement with SlowFast
Temporal Difference Transformer [76.40106756572644]
最近のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙な手がかりのマイニングに重点を置いている。
本稿では,PhysFormerとPhys++++をベースとした2つのエンドツーエンドビデオ変換器を提案する。
4つのベンチマークデータセットで総合的な実験を行い、時間内テストとクロスデータセットテストの両方において優れた性能を示す。
論文 参考訳(メタデータ) (2023-02-07T15:56:03Z) - PhysFormer: Facial Video-based Physiological Measurement with Temporal
Difference Transformer [55.936527926778695]
近年のディープラーニングアプローチは、時間的受容の限られた畳み込みニューラルネットワークを用いた微妙なrの手がかりのマイニングに重点を置いている。
本稿では,エンドツーエンドのビデオトランスをベースとしたアーキテクチャであるPhysFormerを提案する。
論文 参考訳(メタデータ) (2021-11-23T18:57:11Z) - Video-based Remote Physiological Measurement via Cross-verified Feature
Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。
次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。
歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文 参考訳(メタデータ) (2020-07-16T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。