論文の概要: Unsupervised Audio-Visual Lecture Segmentation
- arxiv url: http://arxiv.org/abs/2210.16644v1
- Date: Sat, 29 Oct 2022 16:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 17:25:55.425735
- Title: Unsupervised Audio-Visual Lecture Segmentation
- Title(参考訳): 教師なし視聴覚講義セグメンテーション
- Authors: Darshan Singh S, Anchit Gupta, C. V. Jawahar, Makarand Tapaswi
- Abstract要約: AVLecturesは,STEMを対象とする2,350以上の講義を対象とする86のコースからなるデータセットである。
第2のコントリビューションは,ビデオ講義セグメンテーションの導入である。
我々はこれらの表現を用いて時間的に一貫した1-アネレスト隣のアルゴリズムTW-FINCHを用いてセグメントを生成する。
- 参考スコア(独自算出の注目度): 31.29084124332193
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Over the last decade, online lecture videos have become increasingly popular
and have experienced a meteoric rise during the pandemic. However,
video-language research has primarily focused on instructional videos or
movies, and tools to help students navigate the growing online lectures are
lacking. Our first contribution is to facilitate research in the educational
domain, by introducing AVLectures, a large-scale dataset consisting of 86
courses with over 2,350 lectures covering various STEM subjects. Each course
contains video lectures, transcripts, OCR outputs for lecture frames, and
optionally lecture notes, slides, assignments, and related educational content
that can inspire a variety of tasks. Our second contribution is introducing
video lecture segmentation that splits lectures into bite-sized topics that
show promise in improving learner engagement. We formulate lecture segmentation
as an unsupervised task that leverages visual, textual, and OCR cues from the
lecture, while clip representations are fine-tuned on a pretext self-supervised
task of matching the narration with the temporally aligned visual content. We
use these representations to generate segments using a temporally consistent
1-nearest neighbor algorithm, TW-FINCH. We evaluate our method on 15 courses
and compare it against various visual and textual baselines, outperforming all
of them. Our comprehensive ablation studies also identify the key factors
driving the success of our approach.
- Abstract(参考訳): 過去10年間で、オンライン講義ビデオはますます人気を博し、パンデミックの間、皮肉な上昇を経験した。
しかし、ビデオ言語の研究は主に指導ビデオや映画に焦点を当てており、成長するオンライン講義をナビゲートするためのツールが不足している。
我々の最初の貢献は教育分野の研究を促進することであり、様々なstem科目をカバーする2350以上の講義を含む86のコースからなる大規模データセットであるavlecturesを導入した。
各コースには、ビデオ講義、書き起こし、講義フレーム用のOCR出力、任意に講義ノート、スライド、課題、および様々なタスクを刺激できる関連する教育コンテンツが含まれている。
第2の貢献は、講義を口サイズのトピックに分割して、学習者のエンゲージメントを改善するためのビデオ講義セグメンテーションの導入です。
講義の視覚的,テキスト的,ocr的手がかりを活用した教師なしタスクとして講義セグメンテーションを定式化し,クリップ表現を時間的に調整した視覚コンテンツとナレーションをマッチングする前文自己教師ありタスクに微調整する。
我々はこれらの表現を用いて時間的に一貫した1-アネレスト隣のアルゴリズムTW-FINCHを用いてセグメントを生成する。
提案手法を15のコースで評価し,様々な視覚的,テキスト的ベースラインと比較し,その性能を比較検討した。
我々の包括的アブレーション研究は、我々のアプローチの成功を導く重要な要因も明らかにしている。
関連論文リスト
- A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides [57.86931911522967]
学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
論文 参考訳(メタデータ) (2022-08-17T05:30:18Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Incorporating Domain Knowledge To Improve Topic Segmentation Of Long
MOOC Lecture Videos [4.189643331553923]
本稿では,長い講義ビデオ内に存在するさまざまなコヒーレントなトピックを自動的に検出するアルゴリズムを提案する。
音声からテキストへの書き起こしにおける言語モデルを用いて,ビデオ全体の暗黙的な意味を捉える。
また、インストラクターが結合し、教育中に異なる概念を結びつける方法を捉えることができるドメイン知識も活用します。
論文 参考訳(メタデータ) (2020-12-08T13:37:40Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。