論文の概要: Visual Content Detection in Educational Videos with Transfer Learning and Dataset Enrichment
- arxiv url: http://arxiv.org/abs/2506.21903v1
- Date: Fri, 27 Jun 2025 04:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.085868
- Title: Visual Content Detection in Educational Videos with Transfer Learning and Dataset Enrichment
- Title(参考訳): トランスファー学習とデータセット強化による教育用ビデオの視覚コンテンツ検出
- Authors: Dipayan Biswas, Shishir Shah, Jaspal Subhlok,
- Abstract要約: 本稿では,講義映像フレーム内の視覚的要素を検出するための伝達学習手法について報告する。
YOLOは講義ビデオオブジェクト検出に最適化されており、複数のベンチマークデータセットをトレーニングし、半教師付きオートラベリング戦略を展開している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video is transforming education with online courses and recorded lectures supplementing and replacing classroom teaching. Recent research has focused on enhancing information retrieval for video lectures with advanced navigation, searchability, summarization, as well as question answering chatbots. Visual elements like tables, charts, and illustrations are central to comprehension, retention, and data presentation in lecture videos, yet their full potential for improving access to video content remains underutilized. A major factor is that accurate automatic detection of visual elements in a lecture video is challenging; reasons include i) most visual elements, such as charts, graphs, tables, and illustrations, are artificially created and lack any standard structure, and ii) coherent visual objects may lack clear boundaries and may be composed of connected text and visual components. Despite advancements in deep learning based object detection, current models do not yield satisfactory performance due to the unique nature of visual content in lectures and scarcity of annotated datasets. This paper reports on a transfer learning approach for detecting visual elements in lecture video frames. A suite of state of the art object detection models were evaluated for their performance on lecture video datasets. YOLO emerged as the most promising model for this task. Subsequently YOLO was optimized for lecture video object detection with training on multiple benchmark datasets and deploying a semi-supervised auto labeling strategy. Results evaluate the success of this approach, also in developing a general solution to the problem of object detection in lecture videos. Paper contributions include a publicly released benchmark of annotated lecture video frames, along with the source code to facilitate future research.
- Abstract(参考訳): ビデオは教育をオンラインコースに転換し、教室の授業を補完し、置き換える講義を録音している。
近年,高度なナビゲーション,検索性,要約,質問応答型チャットボットなどを備えたビデオ講義における情報検索の強化に焦点が当てられている。
表、チャート、イラストのようなビジュアル要素は、講義ビデオにおける理解、保持、データの提示の中心であるが、ビデオコンテンツへのアクセスを改善するための大きな可能性を秘めている。
主な要因は、講義ビデオにおける視覚要素の自動検出が困難である点である。
一 図表、図表、図表、図面等のほとんどの視覚要素は、人工的に作成され、標準構造を欠いているもの
二 コヒーレントな視覚オブジェクトは、明確な境界を欠くことができ、かつ、接続されたテキスト及び視覚成分からなることができる。
ディープラーニングに基づく物体検出の進歩にもかかわらず、現在のモデルは講義における視覚的内容の独特な性質と注釈付きデータセットの不足のために満足な性能を得られない。
本稿では,講義映像フレーム内の視覚的要素を検出するための伝達学習手法について報告する。
講義ビデオデータセットの性能評価のために,最先端の物体検出モデル一式を評価した。
YOLOはこのタスクの最も有望なモデルとして登場した。
その後、YOLOは講義ビデオオブジェクト検出に最適化され、複数のベンチマークデータセットをトレーニングし、半教師付きオートラベリング戦略を展開した。
結果は,本手法の成功と,講義ビデオにおける物体検出問題に対する一般的な解法の開発について評価した。
論文のコントリビューションには、注釈付き講義ビデオフレームのベンチマークと、将来の研究を促進するソースコードが含まれている。
関連論文リスト
- Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.80224810039938]
本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。
パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。
実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-29T09:16:19Z) - Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」
Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文 参考訳(メタデータ) (2023-11-22T17:44:24Z) - Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。
このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文 参考訳(メタデータ) (2023-08-15T17:58:11Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。