論文の概要: ViBED-Net: Video Based Engagement Detection Network Using Face-Aware and Scene-Aware Spatiotemporal Cues
- arxiv url: http://arxiv.org/abs/2510.18016v1
- Date: Mon, 20 Oct 2025 18:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.522717
- Title: ViBED-Net: Video Based Engagement Detection Network Using Face-Aware and Scene-Aware Spatiotemporal Cues
- Title(参考訳): ViBED-Net:顔認識とシーン認識時空間キューを用いたビデオベースエンゲージメント検出ネットワーク
- Authors: Prateek Gothwal, Deeptimaan Banerjee, Ashis Kumer Biswas,
- Abstract要約: ViBED-Netは、ビデオデータから学生のエンゲージメントを評価するために設計された新しいディープラーニングフレームワークである。
本モデルは,eラーニングにおける感情状態認識のための大規模ベンチマークであるDAiSEEデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engagement detection in online learning environments is vital for improving student outcomes and personalizing instruction. We present ViBED-Net (Video-Based Engagement Detection Network), a novel deep learning framework designed to assess student engagement from video data using a dual-stream architecture. ViBED-Net captures both facial expressions and full-scene context by processing facial crops and entire video frames through EfficientNetV2 for spatial feature extraction. These features are then analyzed over time using two temporal modeling strategies: Long Short-Term Memory (LSTM) networks and Transformer encoders. Our model is evaluated on the DAiSEE dataset, a large-scale benchmark for affective state recognition in e-learning. To enhance performance on underrepresented engagement classes, we apply targeted data augmentation techniques. Among the tested variants, ViBED-Net with LSTM achieves 73.43\% accuracy, outperforming existing state-of-the-art approaches. ViBED-Net demonstrates that combining face-aware and scene-aware spatiotemporal cues significantly improves engagement detection accuracy. Its modular design allows flexibility for application across education, user experience research, and content personalization. This work advances video-based affective computing by offering a scalable, high-performing solution for real-world engagement analysis. The source code for this project is available on https://github.com/prateek-gothwal/ViBED-Net .
- Abstract(参考訳): オンライン学習環境におけるエンゲージメント検出は、学生の成果を改善し、指導をパーソナライズするために不可欠である。
ViBED-Net(Video-Based Engagement Detection Network, ビデオベースエンゲージメント検出ネットワーク)は、ビデオデータから学生のエンゲージメントを評価するための新しいディープラーニングフレームワークである。
ViBED-Netは、空間的特徴抽出のためにEfficientNetV2を介して、顔の作物とビデオフレーム全体を処理することで、表情とフルシーンのコンテキストの両方をキャプチャする。
これらの機能は、Long Short-Term Memory(LSTM)ネットワークとTransformer Encoderという2つの時間的モデリング戦略を使用して、時間とともに分析される。
本モデルは,eラーニングにおける感情状態認識のための大規模ベンチマークであるDAiSEEデータセットを用いて評価する。
未表現のエンゲージメントクラスの性能を高めるために,ターゲットデータ拡張手法を適用した。
テストされた変種の中で、LSTMを使ったViBED-Netは73.43\%の精度を達成し、既存の最先端のアプローチよりも優れている。
ViBED-Netは、顔認識とシーン認識時空間キューの組み合わせにより、エンゲージメント検出精度が大幅に向上することを示した。
モジュラーデザインは、教育、ユーザー体験研究、コンテンツパーソナライゼーションをまたいだアプリケーションに柔軟性をもたらす。
この研究は、実世界のエンゲージメント分析のためのスケーラブルでハイパフォーマンスなソリューションを提供することによって、ビデオベースの感情コンピューティングを前進させる。
このプロジェクトのソースコードはhttps://github.com/prateek-gothwal/ViBED-Net.comで入手できる。
関連論文リスト
- Dual Learning with Dynamic Knowledge Distillation and Soft Alignment for Partially Relevant Video Retrieval [53.54695034420311]
実際には、ビデオは通常、より複雑な背景コンテンツによって、長い時間で切り離される。
本稿では,大規模視覚言語事前学習モデルから一般化知識を抽出する新しい枠組みを提案する。
実験により,本モデルがTVR,ActivityNet,Charades-STAデータセット上での最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-10-14T08:38:20Z) - Understanding Long Videos via LLM-Powered Entity Relation Graphs [51.13422967711056]
GraphVideoAgentは、ビデオシーケンスを通して視覚的エンティティ間の進化する関係をマップし、監視するフレームワークである。
当社の手法は,業界ベンチマークと比較した場合,顕著な効果を示す。
論文 参考訳(メタデータ) (2025-01-27T10:57:24Z) - Engagement Measurement Based on Facial Landmarks and Spatial-Temporal Graph Convolutional Networks [2.4343669357792708]
本稿では,ビデオからのエンゲージメント測定のための新しいプライバシ保護手法を提案する。
MediaPipeのディープラーニングソリューションを通じてビデオから抽出された、個人識別可能な情報を持たない顔のランドマークを使用している。
提案手法は,仮想学習プラットフォーム上に展開し,リアルタイムにエンゲージメントを測定することができる。
論文 参考訳(メタデータ) (2024-03-25T20:43:23Z) - Deep Learning Approaches for Human Action Recognition in Video Data [0.8080830346931087]
本研究は、この課題に対処するために、様々なディープラーニングモデルの詳細な分析を行う。
我々は、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、Two-Stream ConvNetsに焦点を当てる。
本研究の結果は,頑健な人間の行動認識を実現するための複合モデルの可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-03-11T15:31:25Z) - Video Action Recognition Collaborative Learning with Dynamics via
PSO-ConvNet Transformer [1.876462046907555]
ビデオにおける学習行動のための新しいPSO-ConvNetモデルを提案する。
UCF-101データセットに対する実験結果から,最大9%の精度向上が得られた。
全体として、我々の動的PSO-ConvNetモデルは、人間の行動認識を改善するための有望な方向を提供する。
論文 参考訳(メタデータ) (2023-02-17T23:39:34Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Improving state-of-the-art in Detecting Student Engagement with Resnet
and TCN Hybrid Network [2.2632368327435723]
本稿では,ビデオにおける学生のエンゲージメントレベル検出のためのエンドツーエンドネットワークアーキテクチャを提案する。
2D ResNetは連続するビデオフレームから空間的特徴を抽出し、TCNはビデオフレームの時間的変化を分析してエンゲージメントのレベルを検出する。
本手法は,本データセット上の競合学生のエンゲージメント検出手法と比較した。
論文 参考訳(メタデータ) (2021-04-20T17:10:13Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。