Fugu-MT 論文翻訳(概要): Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks

論文の概要: Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks

arxiv url: http://arxiv.org/abs/2403.17175v2
Date: Wed, 02 Oct 2024 19:54:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-03 21:53:36.31728
Title: Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks
Title（参考訳）: 顔のランドマークと時空間グラフ畳み込みネットワークに基づくエンゲージメント計測
Authors: Ali Abedi, Shehroz S. Khan,
Abstract要約: 本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。 MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。提案手法は,仮想学習プラットフォーム上に展開し,リアルタイムにエンゲージメントを測定することができる。
参考スコア（独自算出の注目度）: 2.4343669357792708
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Engagement in virtual learning is crucial for a variety of factors including student satisfaction, performance, and compliance with learning programs, but measuring it is a challenging task. There is therefore considerable interest in utilizing artificial intelligence and affective computing to measure engagement in natural settings as well as on a large scale. This paper introduces a novel, privacy-preserving method for engagement measurement from videos. It uses facial landmarks, which carry no personally identifiable information, extracted from videos via the MediaPipe deep learning solution. The extracted facial landmarks are fed to Spatial-Temporal Graph Convolutional Networks (ST-GCNs) to output the engagement level of the student in the video. To integrate the ordinal nature of the engagement variable into the training process, ST-GCNs undergo training in a novel ordinal learning framework based on transfer learning. Experimental results on two video student engagement measurement datasets show the superiority of the proposed method compared to previous methods with improved state-of-the-art on the EngageNet dataset with a 3.1% improvement in four-class engagement level classification accuracy and on the Online Student Engagement dataset with a 1.5% improvement in binary engagement classification accuracy. Gradient-weighted Class Activation Mapping (Grad-CAM) was applied to the developed ST-GCNs to interpret the engagement measurements obtained by the proposed method in both the spatial and temporal domains. The relatively lightweight and fast ST-GCN and its integration with the real-time MediaPipe make the proposed approach capable of being deployed on virtual learning platforms and measuring engagement in real-time.
Abstract（参考訳）: 学生の満足度、パフォーマンス、学習プログラムへのコンプライアンスなど、様々な要因において、仮想学習への取り組みが不可欠であるが、その測定は難しい課題である。したがって、人工知能と感情コンピューティングを利用して、自然環境におけるエンゲージメントを大規模に測定することにかなりの関心がある。本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。 MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。抽出された顔のランドマークは、ビデオ内の学生のエンゲージメントレベルを出力するために、空間時間グラフ畳み込みネットワーク(ST-GCN)に供給される。エンゲージメント変数の順序性をトレーニングプロセスに統合するために,ST-GCNは転帰学習に基づく新しい順序学習フレームワークで訓練を行う。 2つのビデオ学生エンゲージメント測定データセットの実験結果から,EngageNetデータセットとオンライン学生エンゲージメントデータセットの3.1%,バイナリエンゲージメント分類精度が1.5%向上した。空間領域と時間領域の両方において提案手法により得られたエンゲージメント測定を解釈するために, 開発したST-GCNに対してグラディエント・クラス活性化マッピング(Grad-CAM)を適用した。比較的軽量で高速なST-GCNとリアルタイムMediaPipeとの統合により、提案されたアプローチは仮想学習プラットフォームにデプロイされ、リアルタイムでエンゲージメントを測定することができる。

関連論文リスト

Supervised Contrastive Learning for Ordinal Engagement Measurement [2.166000001057538]
学生のエンゲージメントは、教育プログラムの納入を成功させる上で重要な役割を担っている。本稿では、クラス不均衡とエンゲージメントレベルへの秩序導入という、この問題における2つの重要な課題を明らかにする。仮想学習環境におけるビデオベースの学生エンゲージメント測定への新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-05-27T03:49:45Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Transformer-Driven Modeling of Variable Frequency Features for Classifying Student Engagement in Online Learning [2.127312905562737]
本稿ではエンゲージフォーマー(EngageFormer)を提案する。エンゲージフォーマー(EngageFormer)は,エンゲージ分類のためのビデオモダリティを用いたシーケンスプーリングを備えたトランスフォーマーアーキテクチャである。提案アーキテクチャは,入力ビデオから3つのビューを計算し,トランスフォーマーエンコーダを用いて並列に処理する。既存のオープンソースデータベースから学習中心の感情状態データセットをキュレートする。
論文参考訳（メタデータ） (2025-02-15T14:37:09Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Bag of States: A Non-sequential Approach to Video-based Engagement Measurement [7.864500429933145]
学生の行動的・感情的状態は、そのエンゲージメントのレベルを測定するために、きめ細かい時間スケールで分析する必要がある。既存の多くのアプローチは、ビデオから学生のエンゲージメントを測定するために、繰り返しニューラルネットワーク、時間畳み込みネットワーク、三次元畳み込みニューラルネットワークなどのシーケンシャルモデルとテンポラルモデルを開発した。本研究では,学生の行動状態と感情状態のみをモデル化・解析し,それらの発生順序をモデル化する。
論文参考訳（メタデータ） (2023-01-17T07:12:34Z)
DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive Regularizer Learning [13.08779945306727]
現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。
論文参考訳（メタデータ） (2022-05-11T00:34:27Z)
COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文参考訳（メタデータ） (2022-04-15T12:34:47Z)
Towards Scale Consistent Monocular Visual Odometry by Learning from the Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文参考訳（メタデータ） (2022-03-11T01:51:54Z)
Contextualized Spatio-Temporal Contrastive Learning with Self-Supervision [106.77639982059014]
時間的にきめ細かな表現を効果的に学習するためのConST-CLフレームワークを提案する。まず、コンテキスト特徴によって導かれるインスタンス表現をあるビューから別のビューに変換することを学習するモデルを必要とする地域ベースの自己教師型タスクを設計する。次に、全体的および局所的な表現の同時学習を効果的に調整するシンプルな設計を導入する。
論文参考訳（メタデータ） (2021-12-09T19:13:41Z)
Affect-driven Engagement Measurement from Videos [0.8545305424564517]
仮想学習プログラムにおいて,ビデオによるエンゲージメント測定のための新しい手法を提案する。ディープラーニングベースの時間モデルと従来の機械学習ベースの非時間モデルをトレーニングし、検証する。実験の結果,最先端のエンゲージメントレベル分類精度は63.3%,非エンゲージメントビデオの正確な分類が得られた。
論文参考訳（メタデータ） (2021-06-21T06:49:17Z)
Improving state-of-the-art in Detecting Student Engagement with Resnet and TCN Hybrid Network [2.2632368327435723]
本稿では,ビデオにおける学生のエンゲージメントレベル検出のためのエンドツーエンドネットワークアーキテクチャを提案する。 2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。
論文参考訳（メタデータ） (2021-04-20T17:10:13Z)
Dense Contrastive Learning for Self-Supervised Visual Pre-Training [102.15325936477362]
入力画像の2つのビュー間の画素レベルでの差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)を最適化することにより自己教師学習を実現する。ベースライン法であるMoCo-v2と比較すると,計算オーバーヘッドは1%遅かった。
論文参考訳（メタデータ） (2020-11-18T08:42:32Z)
MARS: Mixed Virtual and Real Wearable Sensors for Human Activity Recognition with Multi-Domain Deep Learning Model [21.971345137218886]
仮想IMUに基づく大規模データベースの構築を提案し,その上で,3つの技術部分からなる多分野ディープラーニングフレームワークを導入することにより,技術的問題に対処する。まず,混成畳み込みニューラルネットワーク(CNN)を用いたノイズの多いIMUデータから,単一フレームの人間活動について半教師付き形式で学習することを提案する。第2の部分は、不確実性を認識した一貫性の原則に従って抽出されたデータ特徴を融合する。転送学習は、最近リリースされたArchive of Motion Capture as Surface Shapes (AMASS)データセットに基づいて、最後の部分で実行される。
論文参考訳（メタデータ） (2020-09-20T10:35:14Z)
MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文参考訳（メタデータ） (2020-05-15T10:37:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。