Fugu-MT 論文翻訳(概要): Visual Content Detection in Educational Videos with Transfer Learning and Dataset Enrichment

論文の概要: Visual Content Detection in Educational Videos with Transfer Learning and Dataset Enrichment

arxiv url: http://arxiv.org/abs/2506.21903v1
Date: Fri, 27 Jun 2025 04:43:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-30 21:12:23.085868
Title: Visual Content Detection in Educational Videos with Transfer Learning and Dataset Enrichment
Title（参考訳）: トランスファー学習とデータセット強化による教育用ビデオの視覚コンテンツ検出
Authors: Dipayan Biswas, Shishir Shah, Jaspal Subhlok,
Abstract要約: 本稿では,講義映像フレーム内の視覚的要素を検出するための伝達学習手法について報告する。 YOLOは講義ビデオオブジェクト検出に最適化されており、複数のベンチマークデータセットをトレーニングし、半教師付きオートラベリング戦略を展開している。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video is transforming education with online courses and recorded lectures supplementing and replacing classroom teaching. Recent research has focused on enhancing information retrieval for video lectures with advanced navigation, searchability, summarization, as well as question answering chatbots. Visual elements like tables, charts, and illustrations are central to comprehension, retention, and data presentation in lecture videos, yet their full potential for improving access to video content remains underutilized. A major factor is that accurate automatic detection of visual elements in a lecture video is challenging; reasons include i) most visual elements, such as charts, graphs, tables, and illustrations, are artificially created and lack any standard structure, and ii) coherent visual objects may lack clear boundaries and may be composed of connected text and visual components. Despite advancements in deep learning based object detection, current models do not yield satisfactory performance due to the unique nature of visual content in lectures and scarcity of annotated datasets. This paper reports on a transfer learning approach for detecting visual elements in lecture video frames. A suite of state of the art object detection models were evaluated for their performance on lecture video datasets. YOLO emerged as the most promising model for this task. Subsequently YOLO was optimized for lecture video object detection with training on multiple benchmark datasets and deploying a semi-supervised auto labeling strategy. Results evaluate the success of this approach, also in developing a general solution to the problem of object detection in lecture videos. Paper contributions include a publicly released benchmark of annotated lecture video frames, along with the source code to facilitate future research.
Abstract（参考訳）: ビデオは教育をオンラインコースに転換し、教室の授業を補完し、置き換える講義を録音している。近年,高度なナビゲーション,検索性,要約,質問応答型チャットボットなどを備えたビデオ講義における情報検索の強化に焦点が当てられている。表、チャート、イラストのようなビジュアル要素は、講義ビデオにおける理解、保持、データの提示の中心であるが、ビデオコンテンツへのアクセスを改善するための大きな可能性を秘めている。主な要因は、講義ビデオにおける視覚要素の自動検出が困難である点である。一図表、図表、図表、図面等のほとんどの視覚要素は、人工的に作成され、標準構造を欠いているもの二コヒーレントな視覚オブジェクトは、明確な境界を欠くことができ、かつ、接続されたテキスト及び視覚成分からなることができる。ディープラーニングに基づく物体検出の進歩にもかかわらず、現在のモデルは講義における視覚的内容の独特な性質と注釈付きデータセットの不足のために満足な性能を得られない。本稿では,講義映像フレーム内の視覚的要素を検出するための伝達学習手法について報告する。講義ビデオデータセットの性能評価のために,最先端の物体検出モデル一式を評価した。 YOLOはこのタスクの最も有望なモデルとして登場した。その後、YOLOは講義ビデオオブジェクト検出に最適化され、複数のベンチマークデータセットをトレーニングし、半教師付きオートラベリング戦略を展開した。結果は,本手法の成功と,講義ビデオにおける物体検出問題に対する一般的な解法の開発について評価した。論文のコントリビューションには、注釈付き講義ビデオフレームのベンチマークと、将来の研究を促進するソースコードが含まれている。

関連論文リスト

Unsupervised Transcript-assisted Video Summarization and Highlight Detection [6.80224810039938]
本稿では,ビデオフレームとその対応する文字起こしを活用して,より凝縮したビデオを生成するマルチモーダルパイプラインを提案する。パイプラインはRLフレームワーク内でトレーニングされ、多彩で代表的な要約を生成するモデルに報酬を与える。実験の結果,映像の要約やハイライト検出における転写文字の使用は,映像の視覚的内容にのみ依存するよりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2025-05-29T09:16:19Z)
VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
Enhancing Multi-Modal Video Sentiment Classification Through Semi-Supervised Clustering [0.0]
本研究の目的は,映像そのもの,付随するテキスト,音響的特徴の2つの重要な側面に着目し,映像の感情分類を改善することである。我々は,クラスタリングに基づく半教師付き事前学習を利用して,データから意味のある表現を抽出する手法を開発した。
論文参考訳（メタデータ） (2025-01-11T08:04:39Z)
Vamos: Versatile Action Models for Video Understanding [23.631145570126268]
「多元的行動モデル(Vamos)は、大言語モデルを利用した学習フレームワークである。」 Ego4D,NeXT-QA,IntentQA,Spacewalk-18,Egoの5つのベンチマークでVamosを評価する。
論文参考訳（メタデータ） (2023-11-22T17:44:24Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文参考訳（メタデータ） (2023-07-13T17:58:32Z)
Reading-strategy Inspired Visual Representation Learning for Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文参考訳（メタデータ） (2022-01-23T03:38:37Z)
Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文参考訳（メタデータ） (2021-12-02T13:06:53Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文参考訳（メタデータ） (2020-07-29T16:19:50Z)
OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文参考訳（メタデータ） (2020-03-08T04:34:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。