論文の概要: Exploring Automated Recognition of Instructional Activity and Discourse from Multimodal Classroom Data
- arxiv url: http://arxiv.org/abs/2512.00087v1
- Date: Wed, 26 Nov 2025 11:57:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.055062
- Title: Exploring Automated Recognition of Instructional Activity and Discourse from Multimodal Classroom Data
- Title(参考訳): マルチモーダル教室データによる授業活動と談話の自動認識の探索
- Authors: Ivo Bueno, Ruikun Hou, Babette Bühler, Tim Fütterer, James Drimalla, Jonathan Kyle Foster, Peter Youngs, Peter Gerjets, Ulrich Trautwein, Enkelejda Kasneci,
- Abstract要約: 本研究は,マルチモーダル・インストラクショナル・アクティビティと談話認識に着目した,授業記録のAIによる分析について考察する。
164時間のビデオと68のレッスン書き起こしの高密度な注釈付きデータセットを使用して、並列なモダリティ固有のパイプラインを設計する。
微調整されたモデルはプロンプトベースのアプローチを一貫して上回り、マクロF1スコアはビデオで0.577、書き起こしで0.460である。
- 参考スコア(独自算出の注目度): 8.014320244550243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Observation of classroom interactions can provide concrete feedback to teachers, but current methods rely on manual annotation, which is resource-intensive and hard to scale. This work explores AI-driven analysis of classroom recordings, focusing on multimodal instructional activity and discourse recognition as a foundation for actionable feedback. Using a densely annotated dataset of 164 hours of video and 68 lesson transcripts, we design parallel, modality-specific pipelines. For video, we evaluate zero-shot multimodal LLMs, fine-tuned vision-language models, and self-supervised video transformers on 24 activity labels. For transcripts, we fine-tune a transformer-based classifier with contextualized inputs and compare it against prompting-based LLMs on 19 discourse labels. To handle class imbalance and multi-label complexity, we apply per-label thresholding, context windows, and imbalance-aware loss functions. The results show that fine-tuned models consistently outperform prompting-based approaches, achieving macro-F1 scores of 0.577 for video and 0.460 for transcripts. These results demonstrate the feasibility of automated classroom analysis and establish a foundation for scalable teacher feedback systems.
- Abstract(参考訳): 教室での交流の観察は教師に具体的なフィードバックを与えることができるが、現在の手法は、リソース集約的でスケールが難しい手動アノテーションに依存している。
本研究は,動作可能なフィードバックの基盤として,マルチモーダルな指導活動と談話認識に焦点を当てた,授業記録のAIによる分析について検討する。
164時間のビデオと68のレッスン書き起こしの高密度な注釈付きデータセットを使用して、並列なモダリティ固有のパイプラインを設計する。
ビデオでは、ゼロショットマルチモーダルLLM、微調整された視覚言語モデル、24のアクティビティラベル上での自己教師型ビデオトランスフォーマーの評価を行う。
テキストの書き起こしでは、コンテクスト化された入力を持つトランスフォーマーベースの分類器を微調整し、19の談話ラベル上のプロンプトベースのLLMと比較する。
クラス不均衡と複数ラベルの複雑性に対処するために、ラベルごとのしきい値、コンテキストウィンドウ、不均衡を考慮した損失関数を適用する。
その結果、微調整されたモデルはプロンプトベースのアプローチを一貫して上回り、ビデオのマクロF1スコアは0.577、テキストの書き起こしは0.460であることがわかった。
これらの結果は、自動教室分析の実現可能性を示し、スケーラブルな教師フィードバックシステムの基礎を築いた。
関連論文リスト
- LecEval: An Automated Metric for Multimodal Knowledge Acquisition in Multimedia Learning [58.98865450345401]
本稿では,マイアーのマルチメディア学習認知理論に基礎を置く自動計量であるLecEvalを紹介する。
LecEvalは、コンテンツ関連(CR)、表現的明瞭度(EC)、論理構造(LS)、聴取エンゲージメント(AE)の4つのルーリックを用いて効果を評価する
私たちは、50以上のオンラインコースビデオから2000以上のスライドからなる大規模なデータセットをキュレートします。
論文 参考訳(メタデータ) (2025-05-04T12:06:47Z) - Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Automated Assessment of Encouragement and Warmth in Classrooms Leveraging Multimodal Emotional Features and ChatGPT [7.273857543125784]
本研究は,教室における暖かさと励ましを自動的に推定するマルチモーダルアプローチである。
映像,音声,転写データから解釈可能な特徴を抽出するために,感情分析を用いた顔と音声の感情認識を用いた。
92の授業記録から367の16分間のビデオセグメントを含むGTIデータセットに対するアプローチを実証した。
論文 参考訳(メタデータ) (2024-04-01T16:58:09Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。