論文の概要: Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks
- arxiv url: http://arxiv.org/abs/2403.17175v2
- Date: Wed, 02 Oct 2024 19:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:39.586953
- Title: Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks
- Title(参考訳): 顔のランドマークと時空間グラフ畳み込みネットワークに基づくエンゲージメント計測
- Authors: Ali Abedi, Shehroz S. Khan,
- Abstract要約: 本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。
MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。
提案手法は,仮想学習プラットフォーム上に展開し,リアルタイムにエンゲージメントを測定することができる。
- 参考スコア(独自算出の注目度): 2.4343669357792708
- License:
- Abstract: Engagement in virtual learning is crucial for a variety of factors including student satisfaction, performance, and compliance with learning programs, but measuring it is a challenging task. There is therefore considerable interest in utilizing artificial intelligence and affective computing to measure engagement in natural settings as well as on a large scale. This paper introduces a novel, privacy-preserving method for engagement measurement from videos. It uses facial landmarks, which carry no personally identifiable information, extracted from videos via the MediaPipe deep learning solution. The extracted facial landmarks are fed to Spatial-Temporal Graph Convolutional Networks (ST-GCNs) to output the engagement level of the student in the video. To integrate the ordinal nature of the engagement variable into the training process, ST-GCNs undergo training in a novel ordinal learning framework based on transfer learning. Experimental results on two video student engagement measurement datasets show the superiority of the proposed method compared to previous methods with improved state-of-the-art on the EngageNet dataset with a 3.1% improvement in four-class engagement level classification accuracy and on the Online Student Engagement dataset with a 1.5% improvement in binary engagement classification accuracy. Gradient-weighted Class Activation Mapping (Grad-CAM) was applied to the developed ST-GCNs to interpret the engagement measurements obtained by the proposed method in both the spatial and temporal domains. The relatively lightweight and fast ST-GCN and its integration with the real-time MediaPipe make the proposed approach capable of being deployed on virtual learning platforms and measuring engagement in real-time.
- Abstract(参考訳): 学生の満足度、パフォーマンス、学習プログラムへのコンプライアンスなど、様々な要因において、仮想学習への取り組みが不可欠であるが、その測定は難しい課題である。
したがって、人工知能と感情コンピューティングを利用して、自然環境におけるエンゲージメントを大規模に測定することにかなりの関心がある。
本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。
MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。
抽出された顔のランドマークは、ビデオ内の学生のエンゲージメントレベルを出力するために、空間時間グラフ畳み込みネットワーク(ST-GCN)に供給される。
エンゲージメント変数の順序性をトレーニングプロセスに統合するために,ST-GCNは転帰学習に基づく新しい順序学習フレームワークで訓練を行う。
2つのビデオ学生エンゲージメント測定データセットの実験結果から,EngageNetデータセットとオンライン学生エンゲージメントデータセットの3.1%,バイナリエンゲージメント分類精度が1.5%向上した。
空間領域と時間領域の両方において提案手法により得られたエンゲージメント測定を解釈するために, 開発したST-GCNに対してグラディエント・クラス活性化マッピング(Grad-CAM)を適用した。
比較的軽量で高速なST-GCNとリアルタイムMediaPipeとの統合により、提案されたアプローチは仮想学習プラットフォームにデプロイされ、リアルタイムでエンゲージメントを測定することができる。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Informed Meta-Learning [55.2480439325792]
メタラーニングとインシデントMLは、事前知識をMLパイプラインに組み込むための2つのアプローチとして際立っている。
我々は,非構造化知識表現からの事前の取り込みを容易にする,情報メタラーニングというハイブリッドパラダイムを定式化する。
データ効率、観測ノイズに対する堅牢性、タスク分散シフトを改善する上で、情報メタラーニングの潜在的な利点を実証する。
論文 参考訳(メタデータ) (2024-02-25T15:08:37Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Selective In-Context Data Augmentation for Intent Detection using
Pointwise V-Information [100.03188187735624]
PLMとPVI(pointwise V-information)に基づく新しい手法を導入し,モデル学習におけるデータポイントの有用性を計測する。
提案手法はまず,学習データの小さなシード上でPLMを微調整し,与えられた意図に対応する発話を新たに生成する。
そこで本手法は,大規模言語モデルの表現力を活用し,多様な学習データを生成する。
論文 参考訳(メタデータ) (2023-02-10T07:37:49Z) - Bag of States: A Non-sequential Approach to Video-based Engagement
Measurement [7.864500429933145]
学生の行動的・感情的状態は、そのエンゲージメントのレベルを測定するために、きめ細かい時間スケールで分析する必要がある。
既存の多くのアプローチは、ビデオから学生のエンゲージメントを測定するために、繰り返しニューラルネットワーク、時間畳み込みネットワーク、三次元畳み込みニューラルネットワークなどのシーケンシャルモデルとテンポラルモデルを開発した。
本研究では,学生の行動状態と感情状態のみをモデル化・解析し,それらの発生順序をモデル化する。
論文 参考訳(メタデータ) (2023-01-17T07:12:34Z) - Detecting Disengagement in Virtual Learning as an Anomaly [4.706263507340607]
学生エンゲージメントは、仮想学習プログラムの目標を達成する上で重要な要素である。
本稿では,仮想学習における解離を異常検出問題として定式化する。
我々は、時間畳み込みネットワークオートエンコーダ、長期記憶オートエンコーダなど、様々なオートエンコーダを設計する。
論文 参考訳(メタデータ) (2022-11-13T10:29:25Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Affect-driven Engagement Measurement from Videos [0.8545305424564517]
仮想学習プログラムにおいて,ビデオによるエンゲージメント測定のための新しい手法を提案する。
ディープラーニングベースの時間モデルと従来の機械学習ベースの非時間モデルをトレーニングし、検証する。
実験の結果,最先端のエンゲージメントレベル分類精度は63.3%,非エンゲージメントビデオの正確な分類が得られた。
論文 参考訳(メタデータ) (2021-06-21T06:49:17Z) - Improving state-of-the-art in Detecting Student Engagement with Resnet
and TCN Hybrid Network [2.2632368327435723]
本稿では,ビデオにおける学生のエンゲージメントレベル検出のためのエンドツーエンドネットワークアーキテクチャを提案する。
2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。
本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。
論文 参考訳(メタデータ) (2021-04-20T17:10:13Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - MARS: Mixed Virtual and Real Wearable Sensors for Human Activity
Recognition with Multi-Domain Deep Learning Model [21.971345137218886]
仮想IMUに基づく大規模データベースの構築を提案し,その上で,3つの技術部分からなる多分野ディープラーニングフレームワークを導入することにより,技術的問題に対処する。
まず,混成畳み込みニューラルネットワーク(CNN)を用いたノイズの多いIMUデータから,単一フレームの人間活動について半教師付き形式で学習することを提案する。
第2の部分は、不確実性を認識した一貫性の原則に従って抽出されたデータ特徴を融合する。
転送学習は、最近リリースされたArchive of Motion Capture as Surface Shapes (AMASS)データセットに基づいて、最後の部分で実行される。
論文 参考訳(メタデータ) (2020-09-20T10:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。