論文の概要: Passive Dementia Screening via Facial Temporal Micro-Dynamics Analysis of In-the-Wild Talking-Head Video
- arxiv url: http://arxiv.org/abs/2511.13802v1
- Date: Mon, 17 Nov 2025 11:14:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 16:23:52.73864
- Title: Passive Dementia Screening via Facial Temporal Micro-Dynamics Analysis of In-the-Wild Talking-Head Video
- Title(参考訳): 顔面側頭マイクロダイナミックスによる受動性認知症スクリーニング
- Authors: Filippo Cenacchi. Longbing Cao, Mitchell McEwan, Deborah Richards,
- Abstract要約: 短時間のトーキングヘッドビデオによる受動的認知症スクリーニングを対象とする。
早期神経認知変化の言語自由検出のための顔時間マイクロダイナミクス解析を開発した。
- 参考スコア(独自算出の注目度): 0.3568466510804538
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We target passive dementia screening from short camera-facing talking head video, developing a facial temporal micro dynamics analysis for language free detection of early neuro cognitive change. This enables unscripted, in the wild video analysis at scale to capture natural facial behaviors, transferrable across devices, topics, and cultures without active intervention by clinicians or researchers during recording. Most existing resources prioritize speech or scripted interviews, limiting use outside clinics and coupling predictions to language and transcription. In contrast, we identify and analyze whether temporal facial kinematics, including blink dynamics, small mouth jaw motions, gaze variability, and subtle head adjustments, are sufficient for dementia screening without speech or text. By stabilizing facial signals, we convert these micro movements into interpretable facial microdynamic time series, smooth them, and summarize short windows into compact clip level statistics for screening. Each window is encoded by its activity mix (the relative share of motion across streams), thus the predictor analyzes the distribution of motion across streams rather than its magnitude, making per channel effects transparent. We also introduce YT DemTalk, a new dataset curated from publicly available, in the wild camera facing videos. It contains 300 clips (150 with self reported dementia, 150 controls) to test our model and offer a first benchmarking of the corpus. On YT DemTalk, ablations identify gaze lability and mouth/jaw dynamics as the most informative cues, and light weighted shallow classifiers could attain a dementia prediction performance of (AUROC) 0.953, 0.961 Average Precision (AP), 0.851 F1-score, and 0.857 accuracy.
- Abstract(参考訳): 短時間のカメラによる音声頭部映像からの受動的認知症スクリーニングを目標とし,早期の認知変化の言語自由検出のための顔時間マイクロダイナミックス解析を開発した。
これにより、大規模なビデオ分析において、記録中の臨床医や研究者が積極的に介入することなく、デバイス、トピック、文化間での移動が可能な、自然な顔の振る舞いを捉えることができる。
既存のリソースの多くは、音声やスクリプトによるインタビューを優先し、外部の診療所の使用を制限し、言語と文字の結合を予測する。
対照的に, 瞬き動態, 小口運動, 視線変動, 微妙な頭部調節などの時間的顔面運動が, 音声やテキストを使わずに認知症スクリーニングに十分であるかどうかを同定し, 解析した。
顔信号の安定化により、これらのマイクロ動作を解釈可能な顔マイクロダイナミック時系列に変換し、スムーズにし、ショートウィンドウをスクリーニングのためのコンパクトなクリップレベル統計値に要約する。
各ウィンドウは、そのアクティビティミックス(ストリーム間の動きの相対的な共有)によって符号化されるので、予測器はその大きさよりもストリーム間の動きの分布を分析し、チャネルごとの効果を透過的にする。
また、公開からキュレートされた新しいデータセットであるYT DemTalkを、野生のカメラが直面しているビデオに導入しました。
当社のモデルをテストし、最初のコーパスのベンチマークを提供するために、300クリップ(自己報告型認知症150、コントロール150)が含まれています。
YT DemTalkでは、目障り性と口/鼻のダイナミクスを最も情報的な手がかりとして識別し、軽量な浅層分類器は(AUROC)0.953, 0.961平均精度(AP), 0.851 F1スコア, 0.857精度の認知症予測性能を得ることができた。
関連論文リスト
- Brain-language fusion enables interactive neural readout and in-silico experimentation [0.8805057433368938]
CorTextは、大きな言語モデルの潜在空間に直接神経活動を統合するフレームワークである。
正確な画像キャプションを生成し、神経データのみにアクセスしながら、コントロールよりも詳細な質問に答えることができる。
これらの進歩は、受動的復号化から、脳の活動と言語の間の生成的で柔軟なインターフェースへの移行を示す。
論文 参考訳(メタデータ) (2025-09-28T15:35:25Z) - SIM: Surface-based fMRI Analysis for Inter-Subject Multimodal Decoding from Movie-Watching Experiments [9.786770726122436]
脳のデコーディングとエンコーディングのための現在のAIフレームワークは、通常、同じデータセット内でモデルをトレーニングし、テストする。
モデル一般化の鍵となる障害は、物体間皮質組織の多様性の度合いである。
本稿では,大脳皮質機能力学の一般化可能なモデルを構築する表面視覚変換器を用いてこの問題に対処する。
論文 参考訳(メタデータ) (2025-01-27T20:05:17Z) - Detection of Mild Cognitive Impairment Using Facial Features in Video
Conversations [4.229544696616341]
軽度認知障害(MCI)の早期発見は、MCIから認知症への進行を遅らせるための早期介入につながる。
Deep Learning (DL)アルゴリズムは、初期の非侵襲的で低コストなMCI検出を実現するのに役立つ。
本報告では, 高齢者におけるMCIの検出について, 家庭内会話から抽出した顔の特徴のみに基づくDLモデルを用いて検討する。
論文 参考訳(メタデータ) (2023-08-29T20:45:41Z) - MC-ViViT: Multi-branch Classifier-ViViT to detect Mild Cognitive
Impairment in older adults using facial videos [44.72781467904852]
本稿では, 顔の特徴を解析することによって, 正常な認知能力を持つ者との区別を目的とした, マルチブランチ・ビデオ・ビジョン・トランスフォーマ (MCViViT) モデルを提案する。
このデータは、頻繁なビデオチャットを提供することで認知機能を改善することを目的とした行動介入試験であるI-CONECTから得られたものだ。
I-CONECTデータセットの実験結果は、MC-ViViTがMCIを90.63%の精度で予測する大きな可能性を示している。
論文 参考訳(メタデータ) (2023-04-11T15:42:20Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - DFA-NeRF: Personalized Talking Head Generation via Disentangled Face
Attributes Neural Rendering [69.9557427451339]
本稿では,高忠実度音声ヘッド生成のためのニューラルラジアンス場に基づくフレームワークを提案する。
具体的には、神経放射野は唇運動の特徴とパーソナライズされた属性を2つの不絡状態として捉えている。
本手法は最先端の手法よりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2022-01-03T18:23:38Z) - Transfer Learning of Deep Spatiotemporal Networks to Model Arbitrarily
Long Videos of Seizures [58.720142291102135]
てんかん患者の治療には, てんかんセミノロジーの詳細な分析が重要である。
本稿では、畳み込みニューラルネットワーク(CNN)とリカレントニューラルネットワーク(RNN)を組み合わせた新しいアーキテクチャであるGESTURESを紹介する。
本稿では,HARデータセットでトレーニングしたSTCNNとRNNを組み合わせて,任意の長さの発作映像を正確に表現できることを示す。
論文 参考訳(メタデータ) (2021-06-22T18:40:31Z) - Stuttering Speech Disfluency Prediction using Explainable Attribution
Vectors of Facial Muscle Movements [2.6540572249827514]
発声などの発声障害は、不随意反復、延長、音節や音節のブロックによって、通常の発声を阻害する。
近年,音声発声時の呼吸速度,音声等からAIアルゴリズムを用いて発声を自動的に検出する手法が研究されている。
非侵襲的にキャプチャ可能な、AWSの音声前の顔活動には、今後の発声を流音または発声のいずれかとして正確に分類するための十分な情報が含まれている、という仮説を立てています。
論文 参考訳(メタデータ) (2020-10-02T23:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。