論文の概要: Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos
- arxiv url: http://arxiv.org/abs/2506.13657v1
- Date: Mon, 16 Jun 2025 16:18:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.984612
- Title: Lecture Video Visual Objects (LVVO) Dataset: A Benchmark for Visual Object Detection in Educational Videos
- Title(参考訳): 講義ビデオビジュアルオブジェクト(LVVO)データセット:教育ビデオにおけるビジュアルオブジェクト検出のためのベンチマーク
- Authors: Dipayan Biswas, Shishir Shah, Jaspal Subhlok,
- Abstract要約: Lecture Video Visual Objectsデータセットは、教育ビデオコンテンツにおける視覚的オブジェクト検出のための新しいベンチマークである。
データセットは、生物学、計算機科学、地球科学にまたがる245の講義ビデオから抽出された4,000フレームで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Lecture Video Visual Objects (LVVO) dataset, a new benchmark for visual object detection in educational video content. The dataset consists of 4,000 frames extracted from 245 lecture videos spanning biology, computer science, and geosciences. A subset of 1,000 frames, referred to as LVVO_1k, has been manually annotated with bounding boxes for four visual categories: Table, Chart-Graph, Photographic-image, and Visual-illustration. Each frame was labeled independently by two annotators, resulting in an inter-annotator F1 score of 83.41%, indicating strong agreement. To ensure high-quality consensus annotations, a third expert reviewed and resolved all cases of disagreement through a conflict resolution process. To expand the dataset, a semi-supervised approach was employed to automatically annotate the remaining 3,000 frames, forming LVVO_3k. The complete dataset offers a valuable resource for developing and evaluating both supervised and semi-supervised methods for visual content detection in educational videos. The LVVO dataset is publicly available to support further research in this domain.
- Abstract(参考訳): 本稿では,LVVO(Lucture Video Visual Objects)データセットについて紹介する。
データセットは、生物学、計算機科学、地球科学にまたがる245の講義ビデオから抽出された4,000フレームで構成されている。
LVVO_1kと呼ばれる1000フレームのサブセットは、テーブル、チャートグラフ、写真画像、視覚画像の4つの視覚カテゴリのバウンディングボックスで手動で注釈付けされている。
各フレームは2つのアノテータによって独立にラベル付けされ、その結果、アノテータ間のF1スコアは83.41%となり、強い一致を示した。
高品質なコンセンサスアノテーションを保証するため、第3の専門家は、コンフリクト解決プロセスを通じて、不一致のすべてのケースをレビューし、解決した。
データセットを拡張するために、残りの3000フレームを自動的に注釈付けし、LVVO_3kを形成する半教師付きアプローチが採用された。
完全なデータセットは、教育ビデオにおける視覚的コンテンツ検出のための教師付きおよび半教師付き両方の方法の開発と評価に有用なリソースを提供する。
LVVOデータセットは、この領域でのさらなる研究をサポートするために公開されている。
関連論文リスト
- A Human-Annotated Video Dataset for Training and Evaluation of 360-Degree Video Summarization Methods [6.076406622352117]
本稿では,360度映像コンテンツを2次元映像要約に変換する,360度映像要約のための新しいデータセットを提案する。
このデータセットには、トレーニングや360度ビデオ要約手法の客観的評価に使用可能な、地平の人間生成サマリーが含まれている。
論文 参考訳(メタデータ) (2024-06-05T06:43:48Z) - 360VOTS: Visual Object Tracking and Segmentation in Omnidirectional Videos [16.372814014632944]
我々は全方向ビデオオブジェクトセグメンテーション(360VOS)と呼ばれる新しいコンポーネントを組み込んだ包括的なデータセットとベンチマークを提案する。
360VOSデータセットは、高密度のピクセルワイドマスクを伴い、290のシーケンスを含み、幅広いターゲットカテゴリをカバーする。
我々は最先端のアプローチをベンチマークし、提案した360度トラッキングフレームワークとトレーニングデータセットの有効性を実証する。
論文 参考訳(メタデータ) (2024-04-22T07:54:53Z) - Jointly Visual- and Semantic-Aware Graph Memory Networks for Temporal
Sentence Localization in Videos [67.12603318660689]
階層型ビジュアル・セマンティック・アウェア推論ネットワーク(HVSARN)を提案する。
HVSARNは、オブジェクトレベルからフレームレベルへの視覚的および意味論的クエリ推論を可能にする。
3つのデータセットの実験では、HVSARNが新しい最先端のパフォーマンスを達成することが示されています。
論文 参考訳(メタデータ) (2023-03-02T08:00:22Z) - Tencent AVS: A Holistic Ads Video Dataset for Multi-modal Scene
Segmentation [12.104032818304745]
Tencent Ads Video'(TAVS)データセットを広告ドメイン内に構築し、マルチモーダルビデオ分析を新たなレベルにエスカレートする。
TAVSは3つの独立した視点からの動画をプレゼンテーション形式、場所、スタイルとして記述し、ビデオ、オーディオ、テキストなどの豊富なマルチモーダル情報を含んでいる。
12,000のビデオ、82のクラス、33,900のセグメント、121,100のショット、168,500のラベルがある。
論文 参考訳(メタデータ) (2022-12-09T07:26:20Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Boosting Video Representation Learning with Multi-Faceted Integration [112.66127428372089]
ビデオコンテンツは多面的であり、オブジェクト、シーン、インタラクション、アクションで構成されている。
既存のデータセットは、主にモデルトレーニングのファセットの1つだけをラベル付けする。
我々は,ビデオコンテンツの全スペクトルを反映した表現を学習するために,異なるデータセットから顔データを集約する,MUFI(MUlti-Faceted Integration)という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:14:23Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Few-Shot Video Object Detection [70.43402912344327]
本稿では,Few-Shot Video Object Detection (FSVOD) を紹介する。
fsvod-500は500のクラスからなり、各カテゴリーにクラスバランスのビデオがある。
私達のTPNおよびTMN+は共同およびエンドツーエンドの訓練されます。
論文 参考訳(メタデータ) (2021-04-30T07:38:04Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z) - Broaden Your Views for Self-Supervised Video Learning [97.52216510672251]
ビデオのための自己教師型学習フレームワークBraVeを紹介する。
BraVeでは、ビューの1つがビデオの狭い一時的なウィンドウにアクセスでき、もう1つのビューはビデオコンテンツに広くアクセスできます。
BraVeが標準ビデオおよびオーディオ分類ベンチマークで自己監督表現学習の最先端の結果を達成することを実証します。
論文 参考訳(メタデータ) (2021-03-30T17:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。