論文の概要: Improving state-of-the-art in Detecting Student Engagement with Resnet
and TCN Hybrid Network
- arxiv url: http://arxiv.org/abs/2104.10122v1
- Date: Tue, 20 Apr 2021 17:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 16:28:58.157371
- Title: Improving state-of-the-art in Detecting Student Engagement with Resnet
and TCN Hybrid Network
- Title(参考訳): Resnet と TCN ハイブリッドネットワークによる学生エンゲージメント検出の最先端化
- Authors: Ali Abedi and Shehroz S. Khan
- Abstract要約: 本稿では,ビデオにおける学生のエンゲージメントレベル検出のためのエンドツーエンドネットワークアーキテクチャを提案する。
2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。
本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。
- 参考スコア(独自算出の注目度): 2.2632368327435723
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic detection of students' engagement in online learning settings is a
key element to improve the quality of learning and to deliver personalized
learning materials to them. Varying levels of engagement exhibited by students
in an online classroom is an affective behavior that takes place over space and
time. Therefore, we formulate detecting levels of students' engagement from
videos as a spatio-temporal classification problem. In this paper, we present a
novel end-to-end Residual Network (ResNet) and Temporal Convolutional Network
(TCN) hybrid neural network architecture for students' engagement level
detection in videos. The 2D ResNet extracts spatial features from consecutive
video frames, and the TCN analyzes the temporal changes in video frames to
detect the level of engagement. The spatial and temporal arms of the hybrid
network are jointly trained on raw video frames of a large publicly available
students' engagement detection dataset, DAiSEE. We compared our method with
several competing students' engagement detection methods on this dataset. The
ResNet+TCN architecture outperforms all other studied methods, improves the
state-of-the-art engagement level detection accuracy, and sets a new baseline
for future research.
- Abstract(参考訳): オンライン学習環境における学生のエンゲージメントの自動検出は,学習の質を高め,個別の学習教材を提供するための重要な要素である。
オンライン教室で学生が提示するエンゲージメントのレベルは、空間と時間にまたがって起こる情緒的な行動である。
そこで,ビデオから学生のエンゲージメントのレベルを時空間分類問題として定式化する。
本稿では,ビデオにおける学生のエンゲージメントレベル検出のための,新たなエンドツーエンド残差ネットワーク(resnet)と時間畳み込みネットワーク(tcn)ハイブリッドニューラルネットワークアーキテクチャを提案する。
2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。
ハイブリッドネットワークの空間的・時間的アームは、大規模公開学生のエンゲージメント検出データセットであるDAiSEEの生のビデオフレームで共同で訓練される。
本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。
ResNet+TCNアーキテクチャは、他の研究手法よりも優れ、最先端のエンゲージメントレベル検出精度を改善し、将来の研究のための新たなベースラインを設定している。
関連論文リスト
- Study of the effect of Sharpness on Blind Video Quality Assessment [0.0]
本研究では,BVQAのようなモデルに対するシャープネスの影響について検討する。
シャープネス(Sharpness)は、ビデオ画像の明快さと細部を測る尺度である。
本研究では,CVD2014などの既存の映像品質データベースを用いた。
論文 参考訳(メタデータ) (2024-04-06T16:10:48Z) - Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks [2.4343669357792708]
本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。
MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。
提案手法は,仮想学習プラットフォーム上に展開し,リアルタイムにエンゲージメントを測定することができる。
論文 参考訳(メタデータ) (2024-03-25T20:43:23Z) - ASF-Net: Robust Video Deraining via Temporal Alignment and Online
Adaptive Learning [47.10392889695035]
本稿では,時間シフトモジュールを組み込んだ新しい計算パラダイムであるアライメント・シフト・フュージョン・ネットワーク(ASF-Net)を提案する。
LArgeスケールのRAINYビデオデータセット(LARA)を構築し,このコミュニティの開発を支援する。
提案手法は,3つのベンチマークにおいて優れた性能を示し,実世界のシナリオにおいて魅力的な視覚的品質を示す。
論文 参考訳(メタデータ) (2023-09-02T14:50:13Z) - Balancing Accuracy and Training Time in Federated Learning for Violence
Detection in Surveillance Videos: A Study of Neural Network Architectures [0.0]
この研究は、ベンチマークビデオデータセットから抽出した時間的検出機能を用いた実験を含む。
スーパーコンバージェンスやトランスファーラーニングなど,さまざまな機械学習技術について検討した。
この研究は、フェデレートされた学習コンテキストにおける最高の暴力検出モデルを訓練することにより、最先端モデルと比較して精度が向上する。
論文 参考訳(メタデータ) (2023-06-29T19:44:02Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Hybrid Contrastive Quantization for Efficient Cross-View Video Retrieval [55.088635195893325]
クロスビュービデオ検索のための最初の量子化表現学習法,すなわちHybrid Contrastive Quantization(HCQ)を提案する。
HCQは、粗粒度と微粒度の両方を変換器で学習し、テキストやビデオの補完的な理解を提供する。
3つのWebビデオベンチマークデータセットの実験により、HCQは最先端の非圧縮検索手法と競合する性能を示す。
論文 参考訳(メタデータ) (2022-02-07T18:04:10Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Self-Supervised Adaptation for Video Super-Resolution [7.26562478548988]
シングルイメージスーパーリゾリューション(SISR)ネットワークは、特定の入力画像にネットワークパラメータを適応させることができます。
従来のビデオスーパーレゾリューション(VSR)ネットワークがビデオフレームをテストするためにパラメータを適応できるようにする新しい学習アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-18T08:30:24Z) - Fully Convolutional Networks for Continuous Sign Language Recognition [83.85895472824221]
連続手話認識は、空間次元と時間次元の両方の学習を必要とする困難なタスクである。
本稿では,オンラインSLRのための完全畳み込みネットワーク (FCN) を提案し,弱い注釈付きビデオシーケンスから空間的特徴と時間的特徴を同時に学習する。
論文 参考訳(メタデータ) (2020-07-24T08:16:37Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。