論文の概要: Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening
- arxiv url: http://arxiv.org/abs/2602.13507v1
- Date: Fri, 13 Feb 2026 22:36:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.121349
- Title: Benchmarking Video Foundation Models for Remote Parkinson's Disease Screening
- Title(参考訳): 遠隔パーキンソン病スクリーニングのためのビデオ基盤モデルのベンチマーク
- Authors: Md Saiful Islam, Ekram Hossain, Abdelrahman Abdelkader, Tariq Adnan, Fazla Rabbi Mashrur, Sooyong Park, Praveen Kumar, Qasim Sudais, Natalia Chunga, Nami Shah, Jan Freyberg, Christopher Kanan, Ruth Schneider, Ehsan Hoque,
- Abstract要約: リモートでビデオベースのアセスメントは、パーキンソン病(PD)スクリーニングのためのスケーラブルな経路を提供する。
参加者1,888名(727名とPD)による新しいビデオデータセットを用いた大規模体系的研究を行った。
臨床検診におけるロバスト性を評価するために,7種類の最先端VFMを評価した。
- 参考スコア(独自算出の注目度): 14.380171823525108
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Remote, video-based assessments offer a scalable pathway for Parkinson's disease (PD) screening. While traditional approaches rely on handcrafted features mimicking clinical scales, recent advances in video foundation models (VFMs) enable representation learning without task-specific customization. However, the comparative effectiveness of different VFM architectures across diverse clinical tasks remains poorly understood. We present a large-scale systematic study using a novel video dataset from 1,888 participants (727 with PD), comprising 32,847 videos across 16 standardized clinical tasks. We evaluate seven state-of-the-art VFMs -- including VideoPrism, V-JEPA, ViViT, and VideoMAE -- to determine their robustness in clinical screening. By evaluating frozen embeddings with a linear classification head, we demonstrate that task saliency is highly model-dependent: VideoPrism excels in capturing visual speech kinematics (no audio) and facial expressivity, while V-JEPA proves superior for upper-limb motor tasks. Notably, TimeSformer remains highly competitive for rhythmic tasks like finger tapping. Our experiments yield AUCs of 76.4-85.3% and accuracies of 71.5-80.6%. While high specificity (up to 90.3%) suggests strong potential for ruling out healthy individuals, the lower sensitivity (43.2-57.3%) highlights the need for task-aware calibration and integration of multiple tasks and modalities. Overall, this work establishes a rigorous baseline for VFM-based PD screening and provides a roadmap for selecting suitable tasks and architectures in remote neurological monitoring. Code and anonymized structured data are publicly available: https://anonymous.4open.science/r/parkinson\_video\_benchmarking-A2C5
- Abstract(参考訳): リモートでビデオベースのアセスメントは、パーキンソン病(PD)スクリーニングのためのスケーラブルな経路を提供する。
従来のアプローチでは,手作りによる臨床尺度の模倣に頼っているが,ビデオ基盤モデル(VFM)の最近の進歩により,タスク固有のカスタマイズを伴わない表現学習が可能になった。
しかし、様々な臨床タスクにおける異なるVFMアーキテクチャの比較効果は、まだよく分かっていない。
本研究は,16の標準化された臨床課題を対象とした32,847本のビデオからなる,1,888人(727対PD)の新規ビデオデータセットを用いた大規模体系的研究である。
臨床検診において,ビデオプリズム,V-JEPA,ViViT,VMAEを含む7つの最先端VFMを評価し,その堅牢性について検討した。
映像プリズムは, 視覚音声のキネマティクス(音声のない)と表情の表現性に優れ, V-JEPAは上肢運動タスクに優れていた。
とくにTimeSformerは、指のタッピングのようなリズミカルなタスクに力を入れている。
実験の結果, AUCは76.4-85.3%, AUCは71.5-80.6%であった。
高い特異性(最大90.3%)は、健康な個人を除外する強力な可能性を示しているが、低い感度(43.2-57.3%)は、タスク認識の校正と複数のタスクとモダリティの統合の必要性を強調している。
全体として、この研究は、VFMベースのPDスクリーニングのための厳密なベースラインを確立し、遠隔神経学的モニタリングにおいて適切なタスクやアーキテクチャを選択するためのロードマップを提供する。
コードと匿名化された構造化データが公開されている。 https://anonymous.4open.science/r/parkinson\_video\_benchmarking-A2C5
関連論文リスト
- EchoBench: Benchmarking Sycophancy in Medical Large Vision-Language Models [82.43729208063468]
医療用LVLM(Large Vision-Language Models)の最近のベンチマークでは、信頼性と安全性を見越して、リーダボードの精度を強調している。
ユーザが提供した情報を非批判的に反響させる傾向のモデルについて検討する。
医療用LVLMの梅毒を系統的に評価するベンチマークであるEchoBenchを紹介する。
論文 参考訳(メタデータ) (2025-09-24T14:09:55Z) - HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding [120.84817886550765]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。
既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。
我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文 参考訳(メタデータ) (2025-07-07T11:52:24Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Accessible, At-Home Detection of Parkinson's Disease via Multi-task Video Analysis [3.1851272788128644]
既存のAIベースのパーキンソン病検出方法は、主にモータや音声タスクの単調な分析に焦点を当てている。
本稿では,このマルチモーダルデータを利用して診断精度を向上させる不確実性校正核融合ネットワーク(UFNet)を提案する。
UFNetは、精度、ORC曲線下(AUROC)の面積、非隣接特異性を維持しながら感度において、シングルタスクモデルよりも優れていた。
論文 参考訳(メタデータ) (2024-06-21T04:02:19Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Automated interpretation of congenital heart disease from multi-view
echocardiograms [10.238433789459624]
先天性心疾患(CHD)は、中国で最も多い出生障害であり、新生児死亡の原因となっている。
本研究では,多視点心エコー図を実用的エンドツーエンドのフレームワークで自動解析する手法を提案する。
論文 参考訳(メタデータ) (2023-11-30T18:37:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。