論文の概要: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- arxiv url: http://arxiv.org/abs/2510.11204v1
- Date: Mon, 13 Oct 2025 09:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.302161
- Title: Class Prototypes based Contrastive Learning for Classifying Multi-Label and Fine-Grained Educational Videos
- Title(参考訳): クラスプロトタイプに基づくマルチラベル・ファイングラインド教育ビデオ分類のためのコントラスト学習
- Authors: Rohit Gupta, Anirban Roy, Claire Christensen, Sujeong Kim, Sarah Gerard, Madeline Cincebeaux, Ajay Divakaran, Todd Grindal, Mubarak Shah,
- Abstract要約: 本稿では,オンラインビデオにおける教育コンテンツの検出手法を提案する。
我々は、リテラシーと数学という、広く使われている2つの教育コンテンツクラスに焦点を当てている。
評価のために,教育研究者によるきめ細かい授業クラスをラベル付けした教育ビデオを用いた APPROVE というデータセットを提案する。
- 参考スコア(独自算出の注目度): 41.03422661126247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent growth in the consumption of online media by children during early childhood necessitates data-driven tools enabling educators to filter out appropriate educational content for young learners. This paper presents an approach for detecting educational content in online videos. We focus on two widely used educational content classes: literacy and math. For each class, we choose prominent codes (sub-classes) based on the Common Core Standards. For example, literacy codes include `letter names', `letter sounds', and math codes include `counting', `sorting'. We pose this as a fine-grained multilabel classification problem as videos can contain multiple types of educational content and the content classes can get visually similar (e.g., `letter names' vs `letter sounds'). We propose a novel class prototypes based supervised contrastive learning approach that can handle fine-grained samples associated with multiple labels. We learn a class prototype for each class and a loss function is employed to minimize the distances between a class prototype and the samples from the class. Similarly, distances between a class prototype and the samples from other classes are maximized. As the alignment between visual and audio cues are crucial for effective comprehension, we consider a multimodal transformer network to capture the interaction between visual and audio cues in videos while learning the embedding for videos. For evaluation, we present a dataset, APPROVE, employing educational videos from YouTube labeled with fine-grained education classes by education researchers. APPROVE consists of 193 hours of expert-annotated videos with 19 classes. The proposed approach outperforms strong baselines on APPROVE and other benchmarks such as Youtube-8M, and COIN. The dataset is available at https://github.com/rohit-gupta/MMContrast/tree/main/APPROVE
- Abstract(参考訳): 近年の幼児期におけるオンラインメディアの消費増加は、教育者が若者の適切な教育コンテンツをフィルタリングするために必要なデータ駆動ツールを必要としている。
本稿では,オンラインビデオにおける教育コンテンツの検出手法を提案する。
我々は、リテラシーと数学という、広く使われている2つの教育コンテンツクラスに焦点を当てている。
各クラスに対して、Common Core Standardsに基づいて、注目すべきコード(サブクラス)を選択します。
例えば、リテラシーコードは'letter name'、'letter Sound'、数学コードは'counting'、'sorting'である。
ビデオには複数の種類の教育コンテンツが含まれており、コンテンツクラスは視覚的に類似している(例:「レター名」対「レター音」)。
本稿では,複数のラベルに関連付けられたきめ細かいサンプルを処理可能な,教師付きコントラスト学習手法を提案する。
クラス毎にクラスプロトタイプを学習し,クラスプロトタイプとクラスからのサンプルとの距離を最小化するために損失関数を用いる。
同様に、クラスプロトタイプと他のクラスからのサンプルの間の距離は最大化される。
視覚的・音声的手がかりのアライメントは効果的な理解に不可欠であるため,ビデオの埋め込みを学習しながら映像内の視覚的・音声的手がかり間の相互作用を捉えるマルチモーダルトランスフォーマーネットワークを考える。
評価のために、教育研究者によるきめ細かい教育クラスをラベル付けしたYouTubeの教育ビデオを用いたAPPROVEというデータセットを提示する。
APPROVEは19のクラスで193時間のエキスパートアノテーション付きビデオで構成されている。
提案手法は,APPROVEとYoutube-8M,COINなどのベンチマークにおいて,高いベースラインを達成している。
データセットはhttps://github.com/rohit-gupta/MMContrast/tree/main/APPROVEで公開されている。
関連論文リスト
- Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。
我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文 参考訳(メタデータ) (2025-01-11T08:04:39Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Learning from Weakly-labeled Web Videos via Exploring Sub-Concepts [89.06560404218028]
検索ウェブビデオを用いたビデオ行動認識モデルの事前学習手法を提案する。
フィルタアウトする代わりに、これらのクエリービデオの潜在的なノイズを有用な監視信号に変換することを提案します。
SPLは擬似ラベルを用いた既存の事前学習戦略よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-01-11T05:50:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Generalized Few-Shot Video Classification with Video Retrieval and
Feature Generation [132.82884193921535]
従来の手法は,映像特徴学習の重要性を過小評価し,二段階的アプローチを提案する。
この単純なベースラインアプローチは、既存のベンチマークで20ポイント以上の精度で、以前の数ショットビデオ分類方法よりも優れていることを示す。
さらなる改善をもたらす2つの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-09T13:05:32Z) - AVGZSLNet: Audio-Visual Generalized Zero-Shot Learning by Reconstructing
Label Features from Multi-Modal Embeddings [37.3282534461213]
マルチモーダル環境でゼロショット学習を一般化するための新しい手法を提案する。
テキスト埋め込みのセマンティックな関連性をゼロショット学習の手段として,音声とビデオの埋め込みを対応するクラスラベルテキスト特徴空間と整列させることにより活用する。
論文 参考訳(メタデータ) (2020-05-27T14:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。