論文の概要: MC-ViViT: Multi-branch Classifier-ViViT to detect Mild Cognitive
Impairment in older adults using facial videos
- arxiv url: http://arxiv.org/abs/2304.05292v3
- Date: Tue, 10 Oct 2023 16:40:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 13:33:33.250441
- Title: MC-ViViT: Multi-branch Classifier-ViViT to detect Mild Cognitive
Impairment in older adults using facial videos
- Title(参考訳): MC-ViViT:Multi-branch Classifier-ViViTによる高齢者の軽度認知障害の検出
- Authors: Jian Sun, Hiroko H. Dodge, and Mohammad H. Mahoor
- Abstract要約: 本稿では, 顔の特徴を解析することによって, 正常な認知能力を持つ者との区別を目的とした, マルチブランチ・ビデオ・ビジョン・トランスフォーマ (MCViViT) モデルを提案する。
このデータは、頻繁なビデオチャットを提供することで認知機能を改善することを目的とした行動介入試験であるI-CONECTから得られたものだ。
I-CONECTデータセットの実験結果は、MC-ViViTがMCIを90.63%の精度で予測する大きな可能性を示している。
- 参考スコア(独自算出の注目度): 44.72781467904852
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Deep machine learning models including Convolutional Neural Networks (CNN)
have been successful in the detection of Mild Cognitive Impairment (MCI) using
medical images, questionnaires, and videos. This paper proposes a novel
Multi-branch Classifier-Video Vision Transformer (MC-ViViT) model to
distinguish MCI from those with normal cognition by analyzing facial features.
The data comes from the I-CONECT, a behavioral intervention trial aimed at
improving cognitive function by providing frequent video chats. MC-ViViT
extracts spatiotemporal features of videos in one branch and augments
representations by the MC module. The I-CONECT dataset is challenging as the
dataset is imbalanced containing Hard-Easy and Positive-Negative samples, which
impedes the performance of MC-ViViT. We propose a loss function for Hard-Easy
and Positive-Negative Samples (HP Loss) by combining Focal loss and AD-CORRE
loss to address the imbalanced problem. Our experimental results on the
I-CONECT dataset show the great potential of MC-ViViT in predicting MCI with a
high accuracy of 90.63% accuracy on some of the interview videos.
- Abstract(参考訳): 畳み込みニューラルネットワーク(cnn)を含む深層機械学習モデルは、医療画像、アンケート、ビデオを用いた軽度認知障害(mci)の検出に成功している。
本稿では,mciと正常認知を有するものを顔特徴解析により区別するマルチブランチ分類器・ビデオビジョントランスフォーマ(mc-vivit)モデルを提案する。
このデータは、頻繁なビデオチャットを提供することで認知機能を改善するための行動介入試験であるI-CONECTから得られたものだ。
MC-ViViTは1つのブランチでビデオの時空間的特徴を抽出し、MCモジュールによる表現を拡大する。
I-CONECTデータセットは、MC-ViViTのパフォーマンスを妨げるHard-EasyとPositive-Negativeのサンプルを含むデータセットの不均衡のため、難しい。
不均衡な問題に対処するために,Focal LossとAD-CORRE Lossを組み合わせたHP Loss(HP Loss)の損失関数を提案する。
i-conectデータセットを用いた実験結果から,インタビュービデオの精度90.63%の精度でmciを予測できるmc-vivitの可能性が示唆された。
関連論文リスト
- MissionGNN: Hierarchical Multimodal GNN-based Weakly Supervised Video Anomaly Recognition with Mission-Specific Knowledge Graph Generation [5.0923114224599555]
本稿では,新しい階層グラフニューラルネットワーク(GNN)モデルであるMissionGNNを紹介する。
提案手法は,大規模マルチモーダルモデル上での重勾配計算を回避し,従来の手法の限界を回避する。
我々のモデルは,従来のセグメンテーションベースやマルチモーダルアプローチの制約を伴わずに,リアルタイムビデオ解析のための実用的で効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-27T01:09:07Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - FORESEE: Multimodal and Multi-view Representation Learning for Robust Prediction of Cancer Survival [3.4686401890974197]
マルチモーダル情報のマイニングにより患者生存を確実に予測する新しいエンドツーエンドフレームワークFOESEEを提案する。
クロスフュージョントランスフォーマーは、細胞レベル、組織レベル、腫瘍の不均一度レベルの特徴を効果的に利用し、予後を相関させる。
ハイブリットアテンションエンコーダ(HAE)は、コンテキストアテンションモジュールを用いて、コンテキスト関係の特徴を取得する。
また、モダリティ内の損失情報を再構成する非対称マスク型3重マスク型オートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-05-13T12:39:08Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - Detection of Mild Cognitive Impairment Using Facial Features in Video
Conversations [4.229544696616341]
軽度認知障害(MCI)の早期発見は、MCIから認知症への進行を遅らせるための早期介入につながる。
Deep Learning (DL)アルゴリズムは、初期の非侵襲的で低コストなMCI検出を実現するのに役立つ。
本報告では, 高齢者におけるMCIの検出について, 家庭内会話から抽出した顔の特徴のみに基づくDLモデルを用いて検討する。
論文 参考訳(メタデータ) (2023-08-29T20:45:41Z) - Learning Multitask Gaussian Bayesian Networks [11.745963019193955]
大うつ病(Major depressive disorder、MDD)は、脳の機能的接続変化の研究を必要とする。
fMRIスキャンで収集されたデータの量は、個々の分析に十分な情報を与えるにはあまりにも限られている。
本稿では,MDD患者に対する個別の病原性変化を識別できるマルチタスク・ガウス・ベイズネットワークフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-11T08:38:00Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Muti-view Mouse Social Behaviour Recognition with Deep Graphical Model [124.26611454540813]
マウスの社会的行動分析は神経変性疾患の治療効果を評価する貴重なツールである。
マウスの社会行動の豊かな記述を創出する可能性から、ネズミの観察にマルチビュービデオ記録を使用することは、ますます注目を集めている。
本稿では,ビュー固有のサブ構造とビュー共有サブ構造を協調的に学習する,新しい多視点潜在意識・動的識別モデルを提案する。
論文 参考訳(メタデータ) (2020-11-04T18:09:58Z) - Coherent Loss: A Generic Framework for Stable Video Segmentation [103.78087255807482]
ビデオセグメンテーションの結果の視覚的品質を,ジッタリングアーティファクトがいかに劣化させるかを検討する。
本稿では,ニューラルネットワークの性能向上を目的とした汎用フレームワークを備えたコヒーレントロスを提案する。
論文 参考訳(メタデータ) (2020-10-25T10:48:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。