論文の概要: Exploring the Application of Visual Question Answering (VQA) for Classroom Activity Monitoring
- arxiv url: http://arxiv.org/abs/2507.22369v1
- Date: Wed, 30 Jul 2025 04:25:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.984271
- Title: Exploring the Application of Visual Question Answering (VQA) for Classroom Activity Monitoring
- Title(参考訳): 視覚質問応答(VQA)の授業活動モニタリングへの応用を探る
- Authors: Sinh Trong Vu, Hieu Trung Pham, Dung Manh Nguyen, Hieu Minh Hoang, Nhu Hoang Le, Thu Ha Pham, Tai Tan Mai,
- Abstract要約: 近年のVisual Question Answering (VQA)モデルの進歩は、ビデオ記録から教室での対話を自動的に分析するための有望なツールを提供する。
本稿では,LLaMA2,LLaMA3,QWEN3,NVILAなど,最先端のオープンソースVQAモデルの適用性について検討する。
ベトナム銀行学校における実世界授業のビデオ記録から得られたBAV-Classroom-VQAデータセットについて紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classroom behavior monitoring is a critical aspect of educational research, with significant implications for student engagement and learning outcomes. Recent advancements in Visual Question Answering (VQA) models offer promising tools for automatically analyzing complex classroom interactions from video recordings. In this paper, we investigate the applicability of several state-of-the-art open-source VQA models, including LLaMA2, LLaMA3, QWEN3, and NVILA, in the context of classroom behavior analysis. To facilitate rigorous evaluation, we introduce our BAV-Classroom-VQA dataset derived from real-world classroom video recordings at the Banking Academy of Vietnam. We present the methodology for data collection, annotation, and benchmark the performance of the selected VQA models on this dataset. Our initial experimental results demonstrate that all four models achieve promising performance levels in answering behavior-related visual questions, showcasing their potential in future classroom analytics and intervention systems.
- Abstract(参考訳): 授業行動モニタリングは教育研究の重要な側面であり、学生のエンゲージメントや学習成果に重大な影響を及ぼす。
近年のVisual Question Answering (VQA)モデルの進歩は、ビデオ記録から複雑な教室のインタラクションを自動的に分析するための有望なツールを提供する。
本稿では,LLaMA2,LLaMA3,QWEN3,NVILAなど,最先端のオープンソースVQAモデルの授業行動解析への応用について検討する。
厳密な評価を容易にするため,ベトナム銀行学院で実際の教室のビデオ録画から得られたBAV-Classroom-VQAデータセットを紹介した。
本稿では,このデータセット上で選択したVQAモデルの性能について,データ収集,アノテーション,ベンチマークを行う手法を提案する。
最初の実験結果から,4モデル全てが行動関連視覚的質問に答え,将来の教室分析や介入システムにおけるその可能性を示す上で,有望なパフォーマンスレベルを実現していることが明らかとなった。
関連論文リスト
- Breaking Annotation Barriers: Generalized Video Quality Assessment via Ranking-based Self-Supervision [49.46606936180063]
ビデオ品質評価(VQA)は、様々なビデオ処理システムにおける品質の定量化に不可欠である。
我々はVQAのための自己教師型学習フレームワークを導入し、大規模でラベルなしのWebビデオから品質評価機能を学ぶ。
既存のVQAベンチマークよりも10倍のデータセットでトレーニングを行うことで、ゼロショットのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-05-06T15:29:32Z) - Visual question answering: from early developments to recent advances -- a survey [11.729464930866483]
VQA(Visual Question Answering)は、機械が視覚コンテンツに関する質問に答えることを目的とした、進化した研究分野である。
VQAは、インタラクティブな教育ツール、医療画像診断、カスタマーサービス、エンターテイメント、ソーシャルメディアキャプションなど、幅広い用途で注目されている。
論文 参考訳(メタデータ) (2025-01-07T17:00:35Z) - VQA$^2$: Visual Question Answering for Video Quality Assessment [76.81110038738699]
ビデオ品質アセスメント(VQA)は、低レベルの視覚知覚において古典的な分野である。
画像領域における最近の研究は、視覚質問応答(VQA)が視覚的品質を著しく低レベルに評価できることを示した。
VQA2インストラクションデータセットは,ビデオ品質評価に焦点をあてた最初の視覚的質問応答インストラクションデータセットである。
VQA2シリーズは、ビデオにおける空間的時間的品質の詳細の知覚を高めるために、視覚的および運動的トークンをインターリーブする。
論文 参考訳(メタデータ) (2024-11-06T09:39:52Z) - VisQA: X-raying Vision and Language Reasoning in Transformers [10.439369423744708]
最近の研究では、最先端のモデルがトレーニングデータのバイアスやショートカットを利用した回答を生み出す傾向があることが示されている。
VisQAは、この推論とバイアス搾取の問題を探求するビジュアル分析ツールです。
論文 参考訳(メタデータ) (2021-04-02T08:08:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。