論文の概要: Attention-Guided Dual-Stream Learning for Group Engagement Recognition: Fusing Transformer-Encoded Motion Dynamics with Scene Context via Adaptive Gating
- arxiv url: http://arxiv.org/abs/2604.10078v1
- Date: Sat, 11 Apr 2026 07:51:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.828241
- Title: Attention-Guided Dual-Stream Learning for Group Engagement Recognition: Fusing Transformer-Encoded Motion Dynamics with Scene Context via Adaptive Gating
- Title(参考訳): グループエンゲージメント認識のための注意誘導型デュアルストリーム学習:適応ゲーティングによるシーンコンテキストによる変圧器符号化運動ダイナミクスの融合
- Authors: Saniah Kayenat Chowdhury, Muhammad E. H. Chowdhury,
- Abstract要約: 学生参加は集団活動における学習成果の向上に不可欠である。
ほとんどの自動エンゲージメント認識方法は、オンライン教室や個人レベルでのエンゲージメントを推定するために設計されている。
クラス内ビデオからグループレベルのエンゲージメント認識を実現するための新しい2ストリームフレームワークであるDualEngageを提案する。
- 参考スコア(独自算出の注目度): 4.108374141003715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Student engagement is crucial for improving learning outcomes in group activities. Highly engaged students perform better both individually and contribute to overall group success. However, most existing automated engagement recognition methods are designed for online classrooms or estimate engagement at the individual level. Addressing this gap, we propose DualEngage, a novel two-stream framework for group-level engagement recognition from in-classroom videos. It models engagement as a joint function of both individual and group-level behaviors. The primary stream models person-level motion dynamics by detecting and tracking students, extracting dense optical flow with the Recurrent All-Pairs Field Transforms network, encoding temporal motion patterns using a transformer encoder, and finally aggregating per-student representations through attention pooling into a unified representation. The secondary stream captures scene-level spatiotemporal information from the full video clip, leveraging a pretrained three-dimensional Residual Network. The two-stream representations are combined via softmax-gated fusion, which dynamically weights each stream's contribution based on the joint context of both features. DualEngage learns a joint representation of individual actions with overarching group dynamics. We evaluate the proposed approach using fivefold cross-validation on the Classroom Group Engagement Dataset developed by Ocean University of China, achieving an average classification accuracy of 0.9621+/-0.0161 with a macro-averaged F1 of 0.9530+/-0.0204. To understand the contribution of each branch, we further conduct an ablation study comparing single-stream variants against the two-stream model. This work is among the first in classroom engagement recognition to adopt a dual-stream design that explicitly leverages motion cues as an estimator.
- Abstract(参考訳): 学生参加は集団活動における学習成果の向上に不可欠である。
ハイエンゲージな学生は個々により良い成績を収め、グループ全体の成功に貢献する。
しかし、既存の自動エンゲージメント認識手法のほとんどは、オンライン教室や個人レベルでのエンゲージメントを推定するために設計されている。
このギャップに対処するため、クラス内ビデオからのグループレベルのエンゲージメント認識のための新しい2ストリームフレームワークであるDualEngageを提案する。
これは、個人レベルの行動とグループレベルの行動の両方の結合関数としてエンゲージメントをモデル化する。
一次ストリームは、学生を検出・追跡し、リカレントオールペアフィールド変換ネットワークを用いて密集した光の流れを抽出し、トランスフォーマーエンコーダを用いて時間的動きパターンを符号化し、最後に、注意プールを統一された表現にすることで、学生ごとの表現を集約する。
二次ストリームは、事前訓練された3次元残留ネットワークを利用して、フルビデオクリップからシーンレベルの時空間情報をキャプチャする。
2ストリームの表現は、両方の特徴の結合コンテキストに基づいて、各ストリームのコントリビューションを動的に重み付けするソフトマックスゲート融合によって結合される。
DualEngage は集団力学による個々の行動の合同表現を学習する。
提案手法は,中国オーシャン大学が開発したクラスルーム群エンゲージメントデータセットを用いて,マクロ平均F1の0.9530+/-0.0204の平均分類精度を0.9621+/-0.0161と評価した。
さらに, 各枝の寄与を理解するために, 単流モデルと二流モデルとの比較を行った。
この研究は、モーションキューを推定器として明示的に活用するデュアルストリームデザインを採用した最初の教室エンゲージメント認識の1つである。
関連論文リスト
- Flow-Assisted Motion Learning Network for Weakly-Supervised Group Activity Recognition [21.482797499764093]
Weakly-Supervised Group Activity Recognition (WSGAR) は、ビデオレベルラベルを持つ個人とアクターレベルラベルを持たない個人のグループが一緒に行う活動を理解することを目的としている。
本稿では、アクターの特徴を抽出する動き認識エンコーダからなるWSGARのためのフロー支援運動学習ネットワーク(Flaming-Net)を提案する。
我々は、NBAデータセットの2.8%のMPCAスコアを含む2つのベンチマークで、Flaming-Netが最先端のWSGARの結果を新たに発表した。
論文 参考訳(メタデータ) (2024-05-28T09:53:47Z) - Learning from One Continuous Video Stream [70.30084026960819]
1つの連続ビデオストリームからオンライン学習のためのフレームワークを導入する。
連続するビデオフレーム間の高い相関を考えると、これは大きな課題となる。
プリトレーニングとシングルストリーム評価を切り替える実用的で柔軟な方法として,ピクセル・ツー・ピクセル・モデリングを採用している。
論文 参考訳(メタデータ) (2023-12-01T14:03:30Z) - Two-stream Multi-level Dynamic Point Transformer for Two-person Interaction Recognition [45.0131792009999]
本稿では,2人インタラクション認識のための2ストリームマルチレベル動的ポイント変換器を提案する。
本モデルでは,局所空間情報,外観情報,動作情報を組み込むことで,対人インタラクションを認識するという課題に対処する。
我々のネットワークは、ほとんどの標準的な評価設定において最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-07-22T03:51:32Z) - Skeleton-based Action Recognition through Contrasting Two-Stream
Spatial-Temporal Networks [11.66009967197084]
本稿では,空間的および時間的モジュールを並列に融合するContrastive GCN-Transformer Network(ConGT)を提案する。
我々は3つのベンチマークデータセットで実験を行い、このモデルが動作認識における最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-01-27T02:12:08Z) - Detecting Disengagement in Virtual Learning as an Anomaly [4.706263507340607]
学生エンゲージメントは、仮想学習プログラムの目標を達成する上で重要な要素である。
本稿では,仮想学習における解離を異常検出問題として定式化する。
我々は、時間畳み込みネットワークオートエンコーダ、長期記憶オートエンコーダなど、様々なオートエンコーダを設計する。
論文 参考訳(メタデータ) (2022-11-13T10:29:25Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Dual-AI: Dual-path Actor Interaction Learning for Group Activity
Recognition [103.62363658053557]
空間および時間変換器を柔軟に配置するDual-path Actor Interaction (DualAI) フレームワークを提案する。
また,Dual-AIの2つのインタラクティブパスの間に,MAC-Loss(Multiscale Actor Contrastive Loss)を導入する。
我々のデュアルAIは、異なるアクターの識別的特徴を融合させることでグループ活動の認識を促進することができる。
論文 参考訳(メタデータ) (2022-04-05T12:17:40Z) - Adversarial Bipartite Graph Learning for Video Domain Adaptation [50.68420708387015]
ドメイン適応技術は,異なる領域間のモデルを適応させることに重点を置いているが,ビデオ認識領域ではめったに研究されていない。
近年,映像のソースと対象映像の表現を統一するために,対角学習を活用する視覚領域適応はビデオにはあまり効果がない。
本稿では,ソースとターゲットの相互作用を直接モデル化するAdversarial Bipartite Graph (ABG)学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-31T03:48:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。