論文の概要: ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos
- arxiv url: http://arxiv.org/abs/2603.17267v1
- Date: Wed, 18 Mar 2026 01:49:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.473276
- Title: ConfusionBench: An Expert-Validated Benchmark for Confusion Recognition and Localization in Educational Videos
- Title(参考訳): ConfusionBench: 教育ビデオにおけるコンフュージョン認識とローカライゼーションのためのエキスパート検証ベンチマーク
- Authors: Lu Dong, Xiao Wang, Mark Frank, Srirangaraj Setlur, Venu Govindaraju, Ifeoma Nwogu,
- Abstract要約: 既存の混乱データセットは、ノイズの多いラベル、粗い時間的アノテーション、限られた専門家による検証に悩まされている。
本稿では,モデル支援スクリーニング,研究者のキュレーション,専門家の検証の2段階を統合した,実用的な多段階フィルタリングパイプラインを提案する。
このパイプラインに基づいて、バランスの取れた混乱認識データセットとビデオローカライゼーションデータセットからなる教育ビデオの新しいベンチマークであるConfusionBenchを紹介する。
- 参考スコア(独自算出の注目度): 17.181361357233666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognizing and localizing student confusion from video is an important yet challenging problem in educational AI. Existing confusion datasets suffer from noisy labels, coarse temporal annotations, and limited expert validation, which hinder reliable fine-grained recognition and temporally grounded analysis. To address these limitations, we propose a practical multi-stage filtering pipeline that integrates two stages of model-assisted screening, researcher curation, and expert validation to build a higher-quality benchmark for confusion understanding. Based on this pipeline, we introduce ConfusionBench, a new benchmark for educational videos consisting of a balanced confusion recognition dataset and a video localization dataset. We further provide zero-shot baseline evaluations of a representative open-source model and a proprietary model on clip-level confusion recognition, long-video confusion localization tasks. Experimental results show that the proprietary model performs better overall but tends to over-predict transitional segments, while the open-source model is more conservative and more prone to missed detections. In addition, the proposed student confusion report visualization can support educational experts in making intervention decisions and adapting learning plans accordingly. All datasets and related materials will be made publicly available on our project page.
- Abstract(参考訳): ビデオから学生の混乱を認識し、位置を特定することは、教育AIにおいて重要な課題である。
既存の混乱データセットは、ノイズの多いラベル、粗い時間的アノテーション、限られた専門家による検証に悩まされており、信頼性の高い微粒化認識や時間的基盤分析を妨げている。
これらの制約に対処するために,モデル支援スクリーニング,研究者キュレーション,専門家による検証の2段階を統合し,混乱理解のための高品質なベンチマークを構築するための,実用的な多段階フィルタリングパイプラインを提案する。
このパイプラインに基づいて、バランスの取れた混乱認識データセットとビデオローカライゼーションデータセットからなる教育ビデオの新しいベンチマークであるConfusionBenchを紹介する。
さらに、クリップレベルの混乱認識、長時間の混乱局所化タスクにおいて、代表的オープンソースモデルとプロプライエタリモデルのゼロショットベースライン評価を提供する。
実験結果から,プロプライエタリモデルの方が全体的な性能は向上するが,過度に予測される傾向があり,オープンソースモデルはより保守的であり,検出に失敗する傾向にあることがわかった。
さらに、学生混同レポートの可視化は、介入決定や学習計画の適応において、教育専門家を支援することができる。
すべてのデータセットと関連する資料は、プロジェクトページで公開されます。
関連論文リスト
- Self-Attention Decomposition For Training Free Diffusion Editing [18.8152476816527]
制御可能性への重要なステップは、モデルの潜在表現における解釈可能な方向を特定することである。
本研究では,拡散モデルの事前学習パラメータから直接意味的編集方向を導出する解析手法を提案する。
論文 参考訳(メタデータ) (2025-10-26T12:22:56Z) - VL4AD: Vision-Language Models Improve Pixel-wise Anomaly Detection [5.66050466694651]
本稿では,既存の異常検知器にVLエンコーダを組み込み,セマンティック・ワイドなVL事前学習を有効活用し,外乱認識を改善することを提案する。
また,テキスト・プロンプトによるデータ・トレーニング不要の外部監視を可能にする新たなスコアリング機能を提案する。
得られたVL4ADモデルは、広く使用されているベンチマークデータセット上での競合性能を達成する。
論文 参考訳(メタデータ) (2024-09-25T20:12:10Z) - Test-Time Adaptation for Combating Missing Modalities in Egocentric Videos [92.38662956154256]
現実のアプリケーションは、プライバシの懸念、効率性の必要性、ハードウェアの問題により、不完全なモダリティを伴う問題に直面することが多い。
再トレーニングを必要とせずに,テスト時にこの問題に対処する新しい手法を提案する。
MiDlは、欠落したモダリティをテスト時にのみ扱う、自己管理型のオンラインソリューションとしては初めてのものだ。
論文 参考訳(メタデータ) (2024-04-23T16:01:33Z) - Visual Self-paced Iterative Learning for Unsupervised Temporal Action Localization [50.48350210022611]
本稿では,クラスタリングとローカライズトレーニングを同時に行うための,自己ペースの反復学習モデルを提案する。
我々は,2つの段階的なインスタンス学習戦略を設計し,ビデオ擬似ラベルの信頼性を確保する。
論文 参考訳(メタデータ) (2023-12-12T16:00:55Z) - Prior Knowledge Guided Network for Video Anomaly Detection [1.389970629097429]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を検出する。
VADタスクのための事前知識誘導ネットワーク(PKG-Net)を提案する。
論文 参考訳(メタデータ) (2023-09-04T15:57:07Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - On Covariate Shift of Latent Confounders in Imitation and Reinforcement
Learning [69.48387059607387]
模擬・強化学習において,未観測の共同設立者と専門家データを併用することの問題点を考察する。
我々は、外部報酬を伴わずに、確立した専門家データから学ぶことの限界を分析する。
我々は,支援医療とレコメンデーションシステムシミュレーションの課題に挑戦する上で,我々の主張を実証的に検証する。
論文 参考訳(メタデータ) (2021-10-13T07:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。