論文の概要: Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks
- arxiv url: http://arxiv.org/abs/2403.17175v2
- Date: Wed, 02 Oct 2024 19:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:29:39.586953
- Title: Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks
- Title(参考訳): 顔のランドマークと時空間グラフ畳み込みネットワークに基づくエンゲージメント計測
- Authors: Ali Abedi, Shehroz S. Khan,
- Abstract要約: 本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。
MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。
提案手法は,仮想学習プラットフォーム上に展開し,リアルタイムにエンゲージメントを測定することができる。
- 参考スコア(独自算出の注目度): 2.4343669357792708
- License:
- Abstract: Engagement in virtual learning is crucial for a variety of factors including student satisfaction, performance, and compliance with learning programs, but measuring it is a challenging task. There is therefore considerable interest in utilizing artificial intelligence and affective computing to measure engagement in natural settings as well as on a large scale. This paper introduces a novel, privacy-preserving method for engagement measurement from videos. It uses facial landmarks, which carry no personally identifiable information, extracted from videos via the MediaPipe deep learning solution. The extracted facial landmarks are fed to Spatial-Temporal Graph Convolutional Networks (ST-GCNs) to output the engagement level of the student in the video. To integrate the ordinal nature of the engagement variable into the training process, ST-GCNs undergo training in a novel ordinal learning framework based on transfer learning. Experimental results on two video student engagement measurement datasets show the superiority of the proposed method compared to previous methods with improved state-of-the-art on the EngageNet dataset with a 3.1% improvement in four-class engagement level classification accuracy and on the Online Student Engagement dataset with a 1.5% improvement in binary engagement classification accuracy. Gradient-weighted Class Activation Mapping (Grad-CAM) was applied to the developed ST-GCNs to interpret the engagement measurements obtained by the proposed method in both the spatial and temporal domains. The relatively lightweight and fast ST-GCN and its integration with the real-time MediaPipe make the proposed approach capable of being deployed on virtual learning platforms and measuring engagement in real-time.
- Abstract(参考訳): 学生の満足度、パフォーマンス、学習プログラムへのコンプライアンスなど、様々な要因において、仮想学習への取り組みが不可欠であるが、その測定は難しい課題である。
したがって、人工知能と感情コンピューティングを利用して、自然環境におけるエンゲージメントを大規模に測定することにかなりの関心がある。
本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。
MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。
抽出された顔のランドマークは、ビデオ内の学生のエンゲージメントレベルを出力するために、空間時間グラフ畳み込みネットワーク(ST-GCN)に供給される。
エンゲージメント変数の順序性をトレーニングプロセスに統合するために,ST-GCNは転帰学習に基づく新しい順序学習フレームワークで訓練を行う。
2つのビデオ学生エンゲージメント測定データセットの実験結果から,EngageNetデータセットとオンライン学生エンゲージメントデータセットの3.1%,バイナリエンゲージメント分類精度が1.5%向上した。
空間領域と時間領域の両方において提案手法により得られたエンゲージメント測定を解釈するために, 開発したST-GCNに対してグラディエント・クラス活性化マッピング(Grad-CAM)を適用した。
比較的軽量で高速なST-GCNとリアルタイムMediaPipeとの統合により、提案されたアプローチは仮想学習プラットフォームにデプロイされ、リアルタイムでエンゲージメントを測定することができる。
関連論文リスト
- Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。
アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。
ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2024-05-23T08:43:09Z) - Bag of States: A Non-sequential Approach to Video-based Engagement
Measurement [7.864500429933145]
学生の行動的・感情的状態は、そのエンゲージメントのレベルを測定するために、きめ細かい時間スケールで分析する必要がある。
既存の多くのアプローチは、ビデオから学生のエンゲージメントを測定するために、繰り返しニューラルネットワーク、時間畳み込みネットワーク、三次元畳み込みニューラルネットワークなどのシーケンシャルモデルとテンポラルモデルを開発した。
本研究では,学生の行動状態と感情状態のみをモデル化・解析し,それらの発生順序をモデル化する。
論文 参考訳(メタデータ) (2023-01-17T07:12:34Z) - DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive
Regularizer Learning [13.08779945306727]
現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。
本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。
論文 参考訳(メタデータ) (2022-05-11T00:34:27Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Contextualized Spatio-Temporal Contrastive Learning with
Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。
まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。
次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文 参考訳(メタデータ) (2021-12-09T19:13:41Z) - Affect-driven Engagement Measurement from Videos [0.8545305424564517]
仮想学習プログラムにおいて,ビデオによるエンゲージメント測定のための新しい手法を提案する。
ディープラーニングベースの時間モデルと従来の機械学習ベースの非時間モデルをトレーニングし、検証する。
実験の結果,最先端のエンゲージメントレベル分類精度は63.3%,非エンゲージメントビデオの正確な分類が得られた。
論文 参考訳(メタデータ) (2021-06-21T06:49:17Z) - Improving state-of-the-art in Detecting Student Engagement with Resnet
and TCN Hybrid Network [2.2632368327435723]
本稿では,ビデオにおける学生のエンゲージメントレベル検出のためのエンドツーエンドネットワークアーキテクチャを提案する。
2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。
本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。
論文 参考訳(メタデータ) (2021-04-20T17:10:13Z) - Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。
ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文 参考訳(メタデータ) (2020-11-18T08:42:32Z) - MARS: Mixed Virtual and Real Wearable Sensors for Human Activity
Recognition with Multi-Domain Deep Learning Model [21.971345137218886]
仮想IMUに基づく大規模データベースの構築を提案し,その上で,3つの技術部分からなる多分野ディープラーニングフレームワークを導入することにより,技術的問題に対処する。
まず,混成畳み込みニューラルネットワーク(CNN)を用いたノイズの多いIMUデータから,単一フレームの人間活動について半教師付き形式で学習することを提案する。
第2の部分は、不確実性を認識した一貫性の原則に従って抽出されたデータ特徴を融合する。
転送学習は、最近リリースされたArchive of Motion Capture as Surface Shapes (AMASS)データセットに基づいて、最後の部分で実行される。
論文 参考訳(メタデータ) (2020-09-20T10:35:14Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。