論文の概要: Learning in Focus: Detecting Behavioral and Collaborative Engagement Using Vision Transformers
- arxiv url: http://arxiv.org/abs/2508.15782v1
- Date: Tue, 05 Aug 2025 22:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-31 21:54:20.523897
- Title: Learning in Focus: Detecting Behavioral and Collaborative Engagement Using Vision Transformers
- Title(参考訳): 焦点の学習:視覚変換器を用いた行動的・協調的エンゲージメントの検出
- Authors: Sindhuja Penchala, Saketh Reddy Kontham, Prachi Bhattacharjee, Sareh Karami, Mehdi Ghahremani, Noorbakhsh Amiri Golilarz, Shahram Rahimi,
- Abstract要約: 本稿では、視線方向、インタラクション、ピアコラボレーションなどの視覚的手がかりを用いて、子どものエンゲージメントを自動的に分類するAI駆動型アプローチを提案する。
本研究では,視覚変換器(ViT),データ効率のよい画像変換器(DeiT),スウィン変換器(Swin Transformer)の3つの最先端変換器モデルについて検討した。
Swin Transformerは97.58%の精度で最高の分類性能を達成し、局所的およびグローバルな注意をモデル化する効果を実証した。
- 参考スコア(独自算出の注目度): 1.0065435333513146
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In early childhood education, accurately detecting behavioral and collaborative engagement is essential for fostering meaningful learning experiences. This paper presents an AI-driven approach that leverages Vision Transformers (ViTs) to automatically classify children's engagement using visual cues such as gaze direction, interaction, and peer collaboration. Utilizing the Child-Play gaze dataset, our method is trained on annotated video segments to classify behavioral and collaborative engagement states (e.g., engaged, not engaged, collaborative, not collaborative). We evaluated three state-of-the-art transformer models: Vision Transformer (ViT), Data-efficient Image Transformer (DeiT), and Swin Transformer. Among these, the Swin Transformer achieved the highest classification performance with an accuracy of 97.58%, demonstrating its effectiveness in modeling local and global attention. Our results highlight the potential of transformer-based architectures for scalable, automated engagement analysis in real-world educational settings.
- Abstract(参考訳): 幼児期の教育において、意味のある学習経験を育むためには、行動的・協調的なエンゲージメントを正確に検出することが不可欠である。
本稿では、視覚変換器(ViT)を活用して、視線方向、インタラクション、ピアコラボレーションなどの視覚的手がかりを用いて、子供のエンゲージメントを自動的に分類するAI駆動型アプローチを提案する。
この手法は, 児童・子どもの視線データセットを用いて, 行動的・協調的エンゲージメント状態(例えば, エンゲージメントしない, エンゲージメントしない, コラボレーションしない, 協調的)を分類するために, 注釈付きビデオセグメントを用いて訓練する。
本研究では,視覚変換器(ViT),データ効率のよい画像変換器(DeiT),スウィン変換器(Swin Transformer)の3つの最先端変換器モデルについて検討した。
このうち、Swin Transformerは97.58%の精度で最高の分類性能を達成し、局所的およびグローバルな注意をモデル化する効果を実証した。
実世界の教育環境におけるスケーラブルで自動化されたエンゲージメント分析のためのトランスフォーマーベースのアーキテクチャの可能性を強調した。
関連論文リスト
- Sensitive Image Classification by Vision Transformers [1.9598097298813262]
ビジョントランスモデルは自己認識機構を利用して、文脈的局所要素間のグローバルな相互作用をキャプチャする。
本研究では,様々な視覚変換器モデルと従来のトレーニング済みResNetモデルの比較分析を行った。
その結果、ビジョントランスフォーマーネットワークは、事前訓練されたベンチマークモデルを超え、優れた分類と検出能力を示した。
論文 参考訳(メタデータ) (2024-12-21T02:34:24Z) - Towards a Unified Transformer-based Framework for Scene Graph Generation
and Human-object Interaction Detection [116.21529970404653]
本稿では,Transformerアーキテクチャに基づく一段階統一モデルであるSG2HOI+を紹介する。
本手法では,SGGとHOI検出のタスクをシームレスに統一する2つの対話型階層変換器を用いる。
提案手法は最先端のHOI法と比較して競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-03T07:25:57Z) - Distilling Knowledge from CNN-Transformer Models for Enhanced Human
Action Recognition [1.8722948221596285]
本研究の目的は、より大規模な教師モデルから知識を伝達することで、より小さな学生モデルの性能と効率を向上させることである。
提案手法では,生徒モデルとしてトランスフォーマー・ビジョン・ネットワークを使用し,教師モデルとして畳み込みネットワークが機能する。
Vision Transformer (ViT) アーキテクチャは、画像のグローバルな依存関係をキャプチャするための堅牢なフレームワークとして導入された。
論文 参考訳(メタデータ) (2023-11-02T14:57:58Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - LaCViT: A Label-aware Contrastive Fine-tuning Framework for Vision
Transformers [18.76039338977432]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの一般的なモデルとして登場し、様々なタスクで最先端のパフォーマンスを実証している。
本稿では,新しいラベル対応コントラストトレーニングフレームワークであるLaCViTを紹介する。
LaCViTは3つの評価されたViTの性能をTop-1精度で最大10.78%向上させる。
論文 参考訳(メタデータ) (2023-03-31T12:38:08Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Iwin: Human-Object Interaction Detection via Transformer with Irregular
Windows [57.00864538284686]
Iwin Transformerは階層型トランスフォーマーで、不規則ウィンドウ内でトークン表現学習とトークン集約を行う。
Iwin Transformerの有効性と効率を,2つの標準HOI検出ベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-03-20T12:04:50Z) - Visualizing and Understanding Patch Interactions in Vision Transformer [96.70401478061076]
Vision Transformer (ViT) は様々なコンピュータビジョンタスクにおいて主要なツールとなっている。
本稿では,視覚変換器のパッチ間の重要な注意相互作用を分析し,解釈するための,説明可能な新しい可視化手法を提案する。
論文 参考訳(メタデータ) (2022-03-11T13:48:11Z) - A Survey of Visual Transformers [30.082304742571598]
注意に基づくエンコーダデコーダアーキテクチャであるTransformerは、自然言語処理の分野に革命をもたらした。
コンピュータビジョン(CV)分野へのトランスフォーマーアーキテクチャの適用に関する先駆的な研究が最近行われている。
我々は,3つの基本的なCVタスクに対して,100以上の異なる視覚変換器の総合的なレビューを行った。
論文 参考訳(メタデータ) (2021-11-11T07:56:04Z) - Efficient Self-supervised Vision Transformers for Representation
Learning [86.57557009109411]
疎密な自己意識を持つマルチステージアーキテクチャは、モデリングの複雑さを著しく低減できることを示す。
そこで本研究では,モデルがよりきめ細かな領域依存を捕捉できるような,領域マッチングの事前学習タスクを提案する。
この2つの手法を組み合わせることで,ImageNet線形プローブ評価において,EsViTは81.3%のトップ1を達成した。
論文 参考訳(メタデータ) (2021-06-17T19:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。