論文の概要: SliTraNet: Automatic Detection of Slide Transitions in Lecture Videos
using Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2202.03540v1
- Date: Mon, 7 Feb 2022 22:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 14:58:03.307995
- Title: SliTraNet: Automatic Detection of Slide Transitions in Lecture Videos
using Convolutional Neural Networks
- Title(参考訳): SliTraNet:畳み込みニューラルネットワークを用いた講義映像におけるスライド遷移の自動検出
- Authors: Aline Sindel, Abner Hernandez, Seung Hee Yang, Vincent Christlein and
Andreas Maier
- Abstract要約: 講義ビデオ中のスライド遷移を検出するディープラーニング手法を提案する。
まず,2次元畳み込みニューラルネットワークを用いて,プロセスベースのアプローチで映像のフレームを予測する。
2つの3次元畳み込みニューラルネットワークを用いて、遷移候補を洗練することで複雑さを増大させる。
- 参考スコア(独自算出の注目度): 10.097888451225234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the increasing number of online learning material in the web, search for
specific content in lecture videos can be time consuming. Therefore, automatic
slide extraction from the lecture videos can be helpful to give a brief
overview of the main content and to support the students in their studies. For
this task, we propose a deep learning method to detect slide transitions in
lectures videos. We first process each frame of the video by a heuristic-based
approach using a 2-D convolutional neural network to predict transition
candidates. Then, we increase the complexity by employing two 3-D convolutional
neural networks to refine the transition candidates. Evaluation results
demonstrate the effectiveness of our method in finding slide transitions.
- Abstract(参考訳): Webにおけるオンライン学習教材の増加に伴い、講義ビデオ中の特定のコンテンツを探すのに時間がかかる。
したがって,講義ビデオからのスライドの自動抽出は,主内容の概要を簡潔に説明し,学生の学習支援に役立てることができる。
本研究では,講義ビデオ中のスライド遷移を検出するディープラーニング手法を提案する。
まず,ビデオの各フレームを2次元畳み込みニューラルネットワークを用いてヒューリスティックなアプローチで処理し,遷移候補を予測する。
そして、2つの3次元畳み込みニューラルネットワークを用いて遷移候補を洗練することにより複雑さを増大させる。
その結果,スライド遷移の発見における本手法の有効性が示された。
関連論文リスト
- Learning to Localize Actions in Instructional Videos with LLM-Based Multi-Pathway Text-Video Alignment [53.12952107996463]
本研究は,訓練ビデオにおけるプロシージャステップの時間的境界をローカライズするための新しいトレーニングフレームワークを提案する。
手続き理解とテキスト要約におけるLLM(Large Language Models)の強みに感銘を受けて,まずLLMを適用し,課題関連情報を抽出し,課題関連手順をナレーションから要約する。
LLMステップとトレーニング用ビデオとの信頼性の高い擬似マッチングを生成するために,MPTVA(Multi-Pathway Text-Video Alignment)戦略を提案する。
論文 参考訳(メタデータ) (2024-09-22T18:40:55Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Semi-supervised 3D Video Information Retrieval with Deep Neural Network
and Bi-directional Dynamic-time Warping Algorithm [14.39527406033429]
提案アルゴリズムは,大規模なビデオデータセットを処理し,最も関連性の高い映像を検索ビデオクリップに検索するように設計されている。
候補と調査ビデオの両方を一連のクリップに分割し、各クリップをオートエンコーダ支援のディープニューラルネットワークを用いて表現ベクトルに変換する。
次に, 双方向動的時間ワープ法を用いて, 埋め込みベクトル列間の類似度を計算した。
論文 参考訳(メタデータ) (2023-09-03T03:10:18Z) - AutoTransition: Learning to Recommend Video Transition Effects [20.384463765702417]
自動ビデオ遷移レコメンデーション(VTR)の実施について紹介する。
VTRには生のビデオ撮影とオーディオが連続して提供され、隣接する2つのショットごとにビデオ遷移を推奨する。
本稿では,2つの部分からなる新しいマルチモーダルマッチングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-27T12:00:42Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Efficient Modelling Across Time of Human Actions and Interactions [92.39082696657874]
3つの畳み込みニューラルネットワーク(CNND)における現在の固定サイズの時間的カーネルは、入力の時間的変動に対処するために改善できると主張している。
我々は、アーキテクチャの異なるレイヤにまたがる機能の違いを強化することで、アクションのクラス間でどのようにうまく対処できるかを研究する。
提案手法は、いくつかのベンチマークアクション認識データセットで評価され、競合する結果を示す。
論文 参考訳(メタデータ) (2021-10-05T15:39:11Z) - Self-Supervised Learning via multi-Transformation Classification for
Action Recognition [10.676377556393527]
マルチトランスフォーメーション分類に基づく自己監督型映像表現学習手法を導入し,人間の行動を効率的に分類する。
ビデオの表現は、7つの異なる変換を分類することで自己監督的な方法で学習される。
C3Dおよび3D Resnet-18をバックボーンネットワークとして, UCF101およびHMDB51データセットの実験を行った。
論文 参考訳(メタデータ) (2021-02-20T16:11:26Z) - A Comprehensive Study of Deep Video Action Recognition [35.7068977497202]
ビデオ動作認識は,映像理解における代表的なタスクの一つである。
ビデオ行動認識のためのディープラーニングに関する200以上の既存論文を包括的に調査する。
論文 参考訳(メタデータ) (2020-12-11T18:54:08Z) - Video Representation Learning by Recognizing Temporal Transformations [37.59322456034611]
本研究では,モーションダイナミクスの変化に応答するビデオの表現を学習するための,新たな自己教師型学習手法を提案する。
人間のアノテーションを使わずに正確な動きの学習を促進するために、ニューラルネットワークを訓練し、その時間的に変換されたバージョンから映像シーケンスを識別する。
本実験により,提案手法を用いてトレーニングしたネットワークは,動作認識のための転送性能の向上を図った。
論文 参考訳(メタデータ) (2020-07-21T11:43:01Z) - Curriculum By Smoothing [52.08553521577014]
畳み込みニューラルネットワーク(CNN)は、画像分類、検出、セグメンテーションなどのコンピュータビジョンタスクにおいて顕著な性能を示している。
アンチエイリアスフィルタやローパスフィルタを用いてCNNの機能埋め込みを円滑化するエレガントなカリキュラムベースのスキームを提案する。
トレーニング中に特徴マップ内の情報量が増加するにつれて、ネットワークはデータのより優れた表現を徐々に学習することができる。
論文 参考訳(メタデータ) (2020-03-03T07:27:44Z) - Dynamic Inference: A New Approach Toward Efficient Video Action
Recognition [69.9658249941149]
ビデオにおけるアクション認識は近年大きな成功を収めているが、膨大な計算コストのために依然として難しい課題である。
本稿では,異なるビデオの識別可能性の変動を利用して,推論効率を向上させるための一般的な動的推論手法を提案する。
論文 参考訳(メタデータ) (2020-02-09T11:09:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。