論文の概要: Two-stage Temporal Modelling Framework for Video-based Depression
Recognition using Graph Representation
- arxiv url: http://arxiv.org/abs/2111.15266v1
- Date: Tue, 30 Nov 2021 10:26:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 22:54:24.662931
- Title: Two-stage Temporal Modelling Framework for Video-based Depression
Recognition using Graph Representation
- Title(参考訳): グラフ表現を用いたビデオベース抑うつ認識のための2段階時間モデルフレームワーク
- Authors: Jiaqi Xu, Siyang Song, Keerthy Kusumam, Hatice Gunes, Michel Valstar
- Abstract要約: マルチスケールの短期的・ビデオレベルの顔行動からうつ病の重症度をモデル化する2段階のフレームワークを提案する。
抑うつ機能強化(DFE)モジュールは、すべての時間スケールに対する抑うつ関連手がかりを強化するために提案される。
生成したグラフ表現は、短期および長期の顔面行動パターンを用いてうつ病の重症度を予測する。
- 参考スコア(独自算出の注目度): 7.074267438793975
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Video-based automatic depression analysis provides a fast, objective and
repeatable self-assessment solution, which has been widely developed in recent
years. While depression clues may be reflected by human facial behaviours of
various temporal scales, most existing approaches either focused on modelling
depression from short-term or video-level facial behaviours. In this sense, we
propose a two-stage framework that models depression severity from multi-scale
short-term and video-level facial behaviours. The short-term depressive
behaviour modelling stage first deep learns depression-related facial
behavioural features from multiple short temporal scales, where a Depression
Feature Enhancement (DFE) module is proposed to enhance the depression-related
clues for all temporal scales and remove non-depression noises. Then, the
video-level depressive behaviour modelling stage proposes two novel graph
encoding strategies, i.e., Sequential Graph Representation (SEG) and Spectral
Graph Representation (SPG), to re-encode all short-term features of the target
video into a video-level graph representation, summarizing depression-related
multi-scale video-level temporal information. As a result, the produced graph
representations predict depression severity using both short-term and long-term
facial beahviour patterns. The experimental results on AVEC 2013 and AVEC 2014
datasets show that the proposed DFE module constantly enhanced the depression
severity estimation performance for various CNN models while the SPG is
superior than other video-level modelling methods. More importantly, the result
achieved for the proposed two-stage framework shows its promising and solid
performance compared to widely-used one-stage modelling approaches.
- Abstract(参考訳): ビデオベースの自動うつ病解析は、高速で客観的で反復可能な自己評価ソリューションを提供し、近年広く開発されている。
うつ病の手がかりは、様々な時間的スケールの人間の顔行動に反映されるかもしれないが、ほとんどの既存のアプローチは、短期的またはビデオレベルの顔行動からうつ病をモデル化することに焦点を当てている。
この意味では、多段階の短期的およびビデオレベルの顔行動からうつ病の重症度をモデル化する2段階フレームワークを提案する。
短期抑うつ行動モデリングステージ1は、抑うつに関連した表情特徴を複数の短時間尺度から深く学習し、全ての時間的尺度の抑うつ関連手がかりを強化し、非抑うつ音を除去するために抑うつ特徴強調(dfe)モジュールを提案する。
次に、ビデオレベルの抑うつ行動モデリングステージは、ターゲットビデオのすべての短期的特徴をビデオレベルグラフ表現に再符号化し、うつ病関連多スケールビデオレベル時間情報に要約する、2つの新しいグラフ符号化戦略、すなわちシーケンシャルグラフ表現(seg)とスペクトルグラフ表現(spg)を提案する。
その結果、生成したグラフ表現は、短期および長期の顔面行動パターンを用いてうつ病の重症度を予測する。
AVEC 2013 と AVEC 2014 データセットの実験結果から,提案した DFE モジュールは様々な CNN モデルに対して,SPG が他のビデオレベルのモデリング手法よりも優れているのに対して,プレッシャー重大度推定性能を常に向上させることを示した。
さらに重要なことに、提案された2段階のフレームワークで得られた結果は、広く使われている1段階のモデリングアプローチと比較して、有望で堅実なパフォーマンスを示している。
関連論文リスト
- MOGAM: A Multimodal Object-oriented Graph Attention Model for Depression Detection [5.506046101113427]
ソーシャルメディアにおける抑うつを検知するためのMOGAM(Multimodal Object-Oriented Graph Attention Model)を提案する。
本モデルでは,うつ病の症状を確実に把握するために,臨床診断を行うユーザからのvlogしか含まない。
MOGAMは0.871の精度とF1スコア0.888の精度を達成した。
論文 参考訳(メタデータ) (2024-03-21T07:45:58Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - Dynamic Graph Representation Learning for Depression Screening with
Transformer [13.551342607089184]
ソーシャルメディアプラットフォームは、メンタルヘルスを調査し、精神疾患の事例を検出する研究機会を提供する。
既存の抑うつ検出手法は,特徴工学への依存と時間的要因の考慮の欠如により制約される。
提案するContrastEgoは,各ユーザを動的時間進化型属性グラフ(ego-network)として扱う。
ContrastEgoは、様々な実験環境におけるすべての有効性指標において、最先端の手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2023-05-10T20:34:40Z) - Perceptual Quality Assessment of Face Video Compression: A Benchmark and
An Effective Method [69.868145936998]
生成的符号化アプローチは、合理的な速度歪曲トレードオフを持つ有望な代替手段として認識されている。
従来のハイブリッドコーディングフレームワークから生成モデルまで、空間的・時間的領域における歪みの多様さは、圧縮顔画像品質評価(VQA)における大きな課題を提示する。
大規模圧縮顔画像品質評価(CFVQA)データベースを導入し,顔ビデオの知覚的品質と多角化圧縮歪みを体系的に理解するための最初の試みである。
論文 参考訳(メタデータ) (2023-04-14T11:26:09Z) - Bayesian Networks for the robust and unbiased prediction of depression
and its symptoms utilizing speech and multimodal data [65.28160163774274]
我々は,抑うつ,抑うつ症状,および,胸腺で収集された音声,表情,認知ゲームデータから得られる特徴の関連性を把握するためにベイズ的枠組みを適用した。
論文 参考訳(メタデータ) (2022-11-09T14:48:13Z) - STRPM: A Spatiotemporal Residual Predictive Model for High-Resolution
Video Prediction [78.129039340528]
本稿では,高解像度映像予測のための時間残差予測モデル(STRPM)を提案する。
STRPMは、既存の様々な方法と比較して、より満足な結果を得ることができる。
実験の結果, STRPMは既存手法と比較して良好な結果が得られた。
論文 参考訳(メタデータ) (2022-03-30T06:24:00Z) - A Hierarchical Spatio-Temporal Graph Convolutional Neural Network for
Anomaly Detection in Videos [11.423072255384469]
これらの問題に対処する階層型時空間グラフ畳み込みニューラルネットワーク(HSTGCNN)を提案する。
HSTGCNNは、グラフ表現の異なるレベルに対応する複数のブランチで構成されている。
高レベルグラフ表現は、低解像度ビデオにおける人々の移動速度と方向を符号化するために、高レベルグラフ表現は、高解像度ビデオにおける人間の骨格を符号化するために、高レベルグラフ表現が割り当てられる。
論文 参考訳(メタデータ) (2021-12-08T14:03:33Z) - Learning Multi-Granular Hypergraphs for Video-Based Person
Re-Identification [110.52328716130022]
ビデオベースの人物識別(re-ID)はコンピュータビジョンにおいて重要な研究課題である。
MGH(Multi-Granular Hypergraph)という新しいグラフベースのフレームワークを提案する。
MARSの90.0%のトップ-1精度はMGHを用いて達成され、最先端のスキームよりも優れていた。
論文 参考訳(メタデータ) (2021-04-30T11:20:02Z) - Deep Multi-task Learning for Depression Detection and Prediction in
Longitudinal Data [50.02223091927777]
うつ病は最も多い精神疾患の1つであり、世界中の年齢の何百万人もの人々に影響を与えている。
機械学習技術は、早期介入と治療のためのうつ病の自動検出と予測を可能にしている。
本稿では、この課題に対処するために、2つの補助的タスクでうつ病分類を共同最適化する、新しいディープマルチタスクリカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-12-05T05:14:14Z) - Hierarchical Autoregressive Modeling for Neural Video Compression [44.1797885347606]
我々は、最近のニューラルビデオ圧縮手法を、一般化された時間的自己回帰変換の例と見なしている。
大規模ビデオデータに対する包括的評価は、最先端のニューラル圧縮法と従来のビデオ圧縮法に比較して、速度歪み性能が向上したことを示している。
論文 参考訳(メタデータ) (2020-10-19T03:01:33Z) - Multimodal Depression Severity Prediction from medical bio-markers using
Machine Learning Tools and Technologies [0.0]
うつ病は世界中の精神疾患の主要な原因となっている。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
ラベル付き行動データセットの欠如と、膨大な量のバリエーションが、タスクを達成する上で大きな課題であることが証明されている。
論文 参考訳(メタデータ) (2020-09-11T20:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。