論文の概要: Multimodal Engagement Analysis from Facial Videos in the Classroom
- arxiv url: http://arxiv.org/abs/2101.04215v2
- Date: Fri, 22 Jan 2021 18:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-04 14:31:45.963039
- Title: Multimodal Engagement Analysis from Facial Videos in the Classroom
- Title(参考訳): 教室における顔映像からのマルチモーダルエンゲージメント分析
- Authors: \"Omer S\"umer, Patricia Goldberg, Sidney D'Mello, Peter Gerjets,
Ulrich Trautwein, Enkelejda Kasneci
- Abstract要約: 本研究の目的は,授業の質や教員養成の文脈において,授業ビデオの手動データ分析を容易にするための技術手段を提供することである。
- 参考スコア(独自算出の注目度): 5.202558003704116
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Student engagement is a key construct for learning and teaching. While most
of the literature explored the student engagement analysis on computer-based
settings, this paper extends that focus to classroom instruction. To best
examine student visual engagement in the classroom, we conducted a study
utilizing the audiovisual recordings of classes at a secondary school over one
and a half month's time, acquired continuous engagement labeling per student
(N=15) in repeated sessions, and explored computer vision methods to classify
engagement levels from faces in the classroom. We trained deep embeddings for
attentional and emotional features, training Attention-Net for head pose
estimation and Affect-Net for facial expression recognition. We additionally
trained different engagement classifiers, consisting of Support Vector
Machines, Random Forest, Multilayer Perceptron, and Long Short-Term Memory, for
both features. The best performing engagement classifiers achieved AUCs of .620
and .720 in Grades 8 and 12, respectively. We further investigated fusion
strategies and found score-level fusion either improves the engagement
classifiers or is on par with the best performing modality. We also
investigated the effect of personalization and found that using only 60-seconds
of person-specific data selected by margin uncertainty of the base classifier
yielded an average AUC improvement of .084. 4.Our main aim with this work is to
provide the technical means to facilitate the manual data analysis of classroom
videos in research on teaching quality and in the context of teacher training.
- Abstract(参考訳): 学生のエンゲージメントは学習と教育の重要な構成要素である。
本稿は,学生参加分析をコンピュータ・ベース・セッティングで調べるものであるが,本論文は教室の授業に焦点を絞ったものである。
教室における学生の視覚的エンゲージメントを最もよく調査するために,小学校の授業の聴覚的記録を1ヶ月半にわたって活用し,繰り返しセッションで学生毎の連続的エンゲージメントラベル(N=15)を取得し,教室内の顔からエンゲージメントレベルを分類するためのコンピュータビジョン手法を検討した。
我々は,注意的および感情的特徴の深い埋め込みを訓練し,頭部ポーズ推定のためのアテンションネットと表情認識のためのインフルエントネットを訓練した。
また,Support Vector Machines,Random Forest,Multilayer Perceptron,Long Short-Term Memoryの2つの機能で,異なるエンゲージメント分類器を訓練した。
最も優れたエンゲージメント分類器は、それぞれグレード8と12の.620と.720のAUCを達成した。
さらに, 融合戦略について検討し, スコアレベル融合はエンゲージメント分類器を改善するか, 最高のモダリティに匹敵するかを見出した。
また、パーソナライズの効果についても検討し、基本分類器のマージン不確実性によって選択された60秒の個人データを使用することで平均AUC改善率は.084。
本研究の主な目的は,授業の質や教員養成の文脈において,授業ビデオの手動データ分析を容易にするための技術手段を提供することである。
関連論文リスト
- Multimodality in Online Education: A Comparative Study [2.0472158451829827]
現在のシステムは、教育分野に焦点をあてていない単一のキューのみを考慮に入れている。
本稿では,オンライン教室における認識とその展開に影響を与えるマルチモーダルアプローチの必要性を強調した。
各キューで利用可能なさまざまな機械学習モデルを比較し、最も適切なアプローチを提供する。
論文 参考訳(メタデータ) (2023-12-10T07:12:15Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Detecting Disengagement in Virtual Learning as an Anomaly [4.706263507340607]
学生エンゲージメントは、仮想学習プログラムの目標を達成する上で重要な要素である。
本稿では,仮想学習における解離を異常検出問題として定式化する。
我々は、時間畳み込みネットワークオートエンコーダ、長期記憶オートエンコーダなど、様々なオートエンコーダを設計する。
論文 参考訳(メタデータ) (2022-11-13T10:29:25Z) - Unsupervised Audio-Visual Lecture Segmentation [31.29084124332193]
AVLecturesは,STEMを対象とする2,350以上の講義を対象とする86のコースからなるデータセットである。
第2のコントリビューションは,ビデオ講義セグメンテーションの導入である。
我々はこれらの表現を用いて時間的に一貫した1-アネレスト隣のアルゴリズムTW-FINCHを用いてセグメントを生成する。
論文 参考訳(メタデータ) (2022-10-29T16:26:34Z) - Hierarchical Self-supervised Representation Learning for Movie
Understanding [24.952866206036536]
本稿では,階層的映画理解モデルの各レベルを個別に事前学習する,新しい階層的自己指導型事前学習戦略を提案する。
具体的には、コントラスト学習目標を用いた低レベルビデオバックボーンの事前トレーニングと、イベントマスク予測タスクを用いた高レベルビデオコンテクストアライザの事前トレーニングを提案する。
まず、我々の自己指導型事前学習戦略が効果的であることを示し、VidSituベンチマーク[37]における全てのタスクとメトリクスのパフォーマンス改善につながっている(例:意味的役割予測を47%から61% CIDErスコアに改善する)。
論文 参考訳(メタデータ) (2022-04-06T21:28:41Z) - vCLIMB: A Novel Video Class Incremental Learning Benchmark [53.90485760679411]
本稿では,ビデオ連続学習ベンチマークvCLIMBを紹介する。
vCLIMBは、ビデオ連続学習における深層モデルの破滅的な忘れを解析するための標準化されたテストベッドである。
本稿では,メモリベース連続学習法に適用可能な時間的整合性正規化を提案する。
論文 参考訳(メタデータ) (2022-01-23T22:14:17Z) - Seminar Learning for Click-Level Weakly Supervised Semantic Segmentation [149.9226057885554]
クリックレベルの監視を伴う意味的セグメンテーションのための新しい学習パラダイムであるセミナー学習を提案する。
セミナー学習の理論的根拠は、異なるネットワークからの知識を活用して、クリックレベルのアノテーションで提供される不十分な情報を補うことである。
実験により,72.51%の新たな最先端性能を実現するセミナー学習の有効性が示された。
論文 参考訳(メタデータ) (2021-08-30T17:27:43Z) - Class-Balanced Distillation for Long-Tailed Visual Recognition [100.10293372607222]
実世界のイメージはしばしばクラスごとの画像数の著しい不均衡によって特徴づけられ、ロングテール分布に繋がる。
本研究では、インスタンスサンプリングで学習した特徴表現が長尾設定では最適とは程遠いという重要な観察を行うことで、新しいフレームワークを提案する。
我々の主な貢献は、知識蒸留を利用して特徴表現を強化する新しい訓練方法である。
論文 参考訳(メタデータ) (2021-04-12T08:21:03Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z) - Memory-augmented Dense Predictive Coding for Video Representation
Learning [103.69904379356413]
本稿では,新しいアーキテクチャと学習フレームワーク Memory-augmented Predictive Coding (MemDPC) を提案する。
本稿では、RGBフレームからの視覚のみの自己教師付きビデオ表現学習や、教師なし光学フローからの学習、あるいはその両方について検討する。
いずれの場合も、トレーニングデータの桁数が桁違いに少ない他のアプローチに対して、最先端または同等のパフォーマンスを示す。
論文 参考訳(メタデータ) (2020-08-03T17:57:01Z) - Predicting Engagement in Video Lectures [24.415345855402624]
本稿では,文脈に依存しないエンゲージメントを予測するための,ビデオ講義の大規模データセットを提案する。
この課題を達成するために、クロスモーダルとモダリティ固有の特徴セットを提案する。
データ不足の場合、我々のアプローチを実演する。
論文 参考訳(メタデータ) (2020-05-31T19:28:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。