論文の概要: Combining Facial Videos and Biosignals for Stress Estimation During Driving
- arxiv url: http://arxiv.org/abs/2601.04376v2
- Date: Sat, 10 Jan 2026 18:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 15:02:56.461496
- Title: Combining Facial Videos and Biosignals for Stress Estimation During Driving
- Title(参考訳): 運転時のストレス推定のための顔映像と生体信号の組み合わせ
- Authors: Paraskevi Valergaki, Vassilis C. Nicodemou, Iason Oikonomidis, Antonis Argyros, Anastasios Roussos,
- Abstract要約: ストレスは、周産期呼吸や心拍数などの生理的信号を用いて一般的に検出される。
顔の映像と生理的信号を組み合わせたマルチモーダルストレス推定フレームワークを提案する。
ドライビングデータでは評価されるが,提案するフレームワークとプロトコルは,他のストレス推定設定に一般化することができる。
- 参考スコア(独自算出の注目度): 4.551432404727517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable stress recognition is critical in applications such as medical monitoring and safety-critical systems, including real-world driving. While stress is commonly detected using physiological signals such as perinasal perspiration and heart rate, facial activity provides complementary cues that can be captured unobtrusively from video. We propose a multimodal stress estimation framework that combines facial videos and physiological signals, remaining effective even when biosignal acquisition is challenging. Facial behavior is represented using a dense 3D Morphable Model, yielding a 56-dimensional descriptor that captures subtle expression and head-pose dynamics over time. To study how stress modulates facial motion, we perform extensive experiments alongside established physiological markers. Paired hypothesis tests between baseline and stressor phases show that 38 of 56 facial components exhibit consistent, phase-specific stress responses comparable to physiological markers. Building on these findings, we introduce a Transformer-based temporal modeling framework and evaluate unimodal, early-fusion, and cross-modal attention strategies. Cross-modal attention fusion of 3D-derived facial features with physiological signals substantially improves performance over physiological signals alone, increasing AUROC from 52.7% and accuracy from 51.0% to 92.0% and 86.7%, respectively. Although evaluated on driving data, the proposed framework and protocol may generalize to other stress estimation settings.
- Abstract(参考訳): 信頼性の高いストレス認識は、医療監視や現実世界の運転を含む安全クリティカルシステムなどの応用において重要である。
ストレスは、周産期呼吸や心拍数などの生理的信号を用いて一般的に検出されるが、顔の活動は、ビデオから控えめに捉えられる相補的な手がかりを提供する。
本稿では,顔画像と生理的信号を組み合わせたマルチモーダルストレス推定フレームワークを提案する。
顔の振舞いは密度の高い3Dモーフィブルモデルを用いて表現され、56次元のディスクリプタが時間とともに微妙な表現と頭部のダイナミクスをキャプチャする。
ストレスが顔の動きをどう調節するかを研究するため、確立された生理的マーカーとともに広範な実験を行う。
ベースラインとストレスの位相のペアリング仮説テストにより、56の顔成分のうち38は、生理的マーカーに匹敵する一貫した位相特異的なストレス応答を示すことが示された。
これらの知見に基づき,トランスフォーマーに基づく時間的モデリングフレームワークを導入し,単調・早期融合・横断的注意戦略を評価する。
3D由来の顔の特徴と生理的信号との相互注意融合は、生理的信号のみのパフォーマンスを大幅に向上させ、AUROCを52.7%、精度を51.0%から92.0%、86.7%に向上させる。
ドライビングデータでは評価されるが,提案するフレームワークとプロトコルは,他のストレス推定設定に一般化することができる。
関連論文リスト
- Dynamic Stress Detection: A Study of Temporal Progression Modelling of Stress in Speech [1.3320917259299652]
我々はストレスを、歴史的感情状態の影響を受けながら、時間的に進化する現象としてモデル化する。
感情的ラベルからきめ細かな応力アノテーションを抽出する動的ラベル付け手法を提案する。
提案手法は既存のベースラインよりも, MuSE と StressID に顕著な精度向上を実現している。
論文 参考訳(メタデータ) (2025-10-02T06:30:44Z) - CAST-Phys: Contactless Affective States Through Physiological signals Database [74.28082880875368]
感情的なマルチモーダルデータセットの欠如は、正確な感情認識システムを開発する上で、依然として大きなボトルネックとなっている。
遠隔の生理的感情認識が可能な新しい高品質なデータセットであるCAST-Physを提示する。
本分析では,表情だけでは十分な感情情報が得られない現実的なシナリオにおいて,生理的信号が重要な役割を担っていることを強調した。
論文 参考訳(メタデータ) (2025-07-08T15:20:24Z) - Continuous Wavelet Transformation and VGG16 Deep Neural Network for Stress Classification in PPG Signals [0.22499166814992436]
本研究は,光胸腺X線信号によるストレス分類における画期的なアプローチを提案する。
連続ウェーブレット変換(CWT)を実証されたVGG16に組み込むことで,ストレス評価精度と信頼性を向上させる。
論文 参考訳(メタデータ) (2024-10-17T19:29:52Z) - Investigating the Generalizability of Physiological Characteristics of Anxiety [3.4036712573981607]
不安やストレスと高覚醒感情との関連が示された生理的特徴の一般化可能性を評価する。
この研究は、心電図やEDA信号からストレスと覚醒を横断する最初のクロスコーパス評価であり、ストレス検出の一般化性に関する新たな発見に寄与した。
論文 参考訳(メタデータ) (2024-01-23T16:49:54Z) - Deep-seeded Clustering for Emotion Recognition from Wearable Physiological Sensors [1.380698851850167]
本稿では,生理的信号から特徴を最小限に抽出し,分類するディープシードクラスタリングアルゴリズムを提案する。
本モデルは,感情コンピューティング研究で頻繁に使用される3つのデータセットに対して,良好な性能が得られることを示す。
論文 参考訳(メタデータ) (2023-08-17T14:37:35Z) - Semantic-aware One-shot Face Re-enactment with Dense Correspondence
Estimation [100.60938767993088]
ワンショットの顔の再現は、ソースと駆動する顔の同一性ミスマッチのため、難しい作業である。
本稿では,3次元形態素モデル(3DMM)を明示的な顔のセマンティックな分解とアイデンティティの絡み合いに利用することを提案する。
論文 参考訳(メタデータ) (2022-11-23T03:02:34Z) - Leveraging Real Talking Faces via Self-Supervision for Robust Forgery
Detection [112.96004727646115]
本研究では,実話を用いた顔操作映像の検出手法を開発した。
本手法は, クロスマニピュレーションの一般化とロバストネス実験における最先端性能を実現する。
以上の結果から、より堅牢な顔偽造検知器の開発には、自然ビデオと未表示ビデオの活用が有望な方向であることが示唆された。
論文 参考訳(メタデータ) (2022-01-18T17:14:54Z) - Robust and Precise Facial Landmark Detection by Self-Calibrated Pose
Attention Network [73.56802915291917]
より堅牢で正確な顔のランドマーク検出を実現するための半教師付きフレームワークを提案する。
より効果的な顔形状制約をモデル化するために,境界対応ランドマーク強度(BALI)フィールドを提案する。
自己キャリブレーション・ポース・アテンション(SCPA)モデルは、中間的監督を強制する自己学習型目標関数を提供するように設計されている。
論文 参考訳(メタデータ) (2021-12-23T02:51:08Z) - StressNet: Detecting Stress in Thermal Videos [10.453959171422147]
本稿では, サーマルビデオから生理的信号を取得し, ストレス状態を分類するための新しい手法を提案する。
ストレスネット (StressNet) は、ストレス人の定量的指標と考えられる心交感神経活動の変化の尺度であるISTI (Initial Systolic Time Interval) を再構成する。
詳細な評価では、ISTI信号の95%の精度で推定し、平均精度0.842で応力を検出することが示されている。
論文 参考訳(メタデータ) (2020-11-18T20:47:23Z) - Unsupervised Learning Facial Parameter Regressor for Action Unit
Intensity Estimation via Differentiable Renderer [51.926868759681014]
骨駆動型顔モデル(BDFM)に基づいて,異なる視点で顔パラメータを予測する枠組みを提案する。
提案するフレームワークは,特徴抽出器,ジェネレータ,顔パラメータ回帰器から構成される。
論文 参考訳(メタデータ) (2020-08-20T09:49:13Z) - Video-based Remote Physiological Measurement via Cross-verified Feature
Disentangling [121.50704279659253]
非生理的表現と生理的特徴を混同するための横断的特徴分離戦略を提案する。
次に, 蒸留された生理特性を用いて, 頑健なマルチタスク生理測定を行った。
歪んだ特徴は、最終的に平均HR値やr信号のような複数の生理的信号の合同予測に使用される。
論文 参考訳(メタデータ) (2020-07-16T09:39:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。