論文の概要: Reading Between the Frames: Multi-Modal Depression Detection in Videos
from Non-Verbal Cues
- arxiv url: http://arxiv.org/abs/2401.02746v1
- Date: Fri, 5 Jan 2024 10:47:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 15:17:36.537230
- Title: Reading Between the Frames: Multi-Modal Depression Detection in Videos
from Non-Verbal Cues
- Title(参考訳): フレーム間の読み上げ:ノンバーバルキューからのビデオにおけるマルチモーダルデプレッション検出
- Authors: David Gimeno-G\'omez, Ana-Maria Bucur, Adrian Cosma, Carlos-David
Mart\'inez-Hinarejos, Paolo Rosso
- Abstract要約: 世界的障害への顕著な貢献者である抑うつは、人口のかなりの部分に影響を与える。
ソーシャルメディアのテキストからうつ病を検知する試みは広く行われているが、ユーザー生成ビデオコンテンツからうつ病を検知する研究はごくわずかしか行われていない。
本研究では, ノイズの多い実世界のビデオにおいて, 多様なモーダル性から非言語的抑うつの手がかりを識別できる, 単純で柔軟なマルチモーダル時間モデルを提案する。
- 参考スコア(独自算出の注目度): 11.942057763913208
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Depression, a prominent contributor to global disability, affects a
substantial portion of the population. Efforts to detect depression from social
media texts have been prevalent, yet only a few works explored depression
detection from user-generated video content. In this work, we address this
research gap by proposing a simple and flexible multi-modal temporal model
capable of discerning non-verbal depression cues from diverse modalities in
noisy, real-world videos. We show that, for in-the-wild videos, using
additional high-level non-verbal cues is crucial to achieving good performance,
and we extracted and processed audio speech embeddings, face emotion
embeddings, face, body and hand landmarks, and gaze and blinking information.
Through extensive experiments, we show that our model achieves state-of-the-art
results on three key benchmark datasets for depression detection from video by
a substantial margin. Our code is publicly available on GitHub.
- Abstract(参考訳): 世界的障害の顕著な貢献者であるうつ病は、人口のかなりの部分に影響する。
ソーシャルメディアのテキストからうつ病を検知する試みは広く行われているが、ユーザー生成ビデオコンテンツからうつ病を検出する研究はごくわずかである。
本研究では,非言語的抑うつの手がかりを,ノイズの多い実世界のビデオの様々なモードから識別できる,シンプルで柔軟なマルチモーダル時間モデルを提案することで,この研究ギャップに対処する。
実写ビデオでは,ハイレベルな非言語的手がかりを付加して高いパフォーマンスを実現することが重要であり,音声音声の埋め込み,表情感情の埋め込み,顔・身体・手のランドマーク,視線・点滅情報などが抽出・処理されている。
広範にわたる実験により,ビデオからの抑うつ検出のための3つの重要なベンチマークデータセットにおいて,本モデルが最先端の結果を得ることを示す。
私たちのコードはgithubで公開されている。
関連論文リスト
- AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting
Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。
AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。
音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T19:01:26Z) - Depression detection in social media posts using affective and social
norm features [84.12658971655253]
ソーシャルメディア投稿からの抑うつ検出のための奥深いアーキテクチャを提案する。
我々は、後期融合方式を用いて、ポストとワードの敬称と道徳的特徴をアーキテクチャに組み込んだ。
提案された機能を含めると、両方の設定で最先端の結果が得られます。
論文 参考訳(メタデータ) (2023-03-24T21:26:27Z) - It's Just a Matter of Time: Detecting Depression with Time-Enriched
Multimodal Transformers [24.776445591293186]
本稿では,ソーシャルメディア投稿からうつ病を検出するための柔軟な時間拡張型マルチモーダルトランスフォーマーアーキテクチャを提案する。
我々のモデルはユーザーレベルで直接動作し、時間2vecの位置埋め込みを用いて、投稿間の相対時間で拡張する。
EmoBERTaとCLIPの埋め込みを用いた手法は、2つのマルチモーダルデータセット上の他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-13T09:40:19Z) - Semantic Similarity Models for Depression Severity Estimation [53.72188878602294]
本稿では、ソーシャルメディアの文章に基づいて、個人のうつ病の重症度を研究するための効率的なセマンティックパイプラインを提案する。
我々は,抑うつ症状と重度レベルに対応する代表訓練文の指標に対して意味的ランキングを生成するために,テストユーザ文を使用する。
本手法を2つのRedditベースのベンチマークで評価し,うつ病の重症度を指標として,最先端技術よりも30%改善した。
論文 参考訳(メタデータ) (2022-11-14T18:47:26Z) - Audio-Visual Person-of-Interest DeepFake Detection [77.04789677645682]
本研究の目的は、現実世界で遭遇する様々な操作方法やシナリオに対処できるディープフェイク検出器を提案することである。
我々は、対照的な学習パラダイムを活用して、各アイデンティティに対して最も識別しやすい、移動面と音声セグメントの埋め込みを学習する。
本手法は,シングルモダリティ(オーディオのみ,ビデオのみ)とマルチモダリティ(オーディオビデオ)の両方を検出でき,低品質・低画質ビデオに対して堅牢である。
論文 参考訳(メタデータ) (2022-04-06T20:51:40Z) - A Psychologically Informed Part-of-Speech Analysis of Depression in
Social Media [1.7188280334580193]
私たちは、Early Risk Prediction on the Internet Workshop (eRisk) 2018のうつ病データセットを使用します。
その結果, うつ病者と非うつ病者の間に統計的に有意な差が認められた。
我々の研究は、抑うつした個人がソーシャルメディアプラットフォーム上で自己表現している方法に関する洞察を提供する。
論文 参考訳(メタデータ) (2021-07-31T16:23:22Z) - Learning to Predict Salient Faces: A Novel Visual-Audio Saliency Model [96.24038430433885]
本稿では,視覚,音声,顔の3つの分枝からなるマルチモーダルビデオサリエンシーモデルを提案する。
実験結果から,提案手法は,11の最先端サリエンシ予測作業より優れていた。
論文 参考訳(メタデータ) (2021-03-29T09:09:39Z) - Multimodal Depression Severity Prediction from medical bio-markers using
Machine Learning Tools and Technologies [0.0]
うつ病は世界中の精神疾患の主要な原因となっている。
近年,うつ病の診断とステージ予測の自動化に行動的手がかりが用いられている。
ラベル付き行動データセットの欠如と、膨大な量のバリエーションが、タスクを達成する上で大きな課題であることが証明されている。
論文 参考訳(メタデータ) (2020-09-11T20:44:28Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。