論文の概要: Visual Summarization of Lecture Video Segments for Enhanced Navigation
- arxiv url: http://arxiv.org/abs/2006.02434v1
- Date: Wed, 3 Jun 2020 16:53:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-25 18:30:10.559238
- Title: Visual Summarization of Lecture Video Segments for Enhanced Navigation
- Title(参考訳): ナビゲーション強化のための講義映像セグメントの視覚的要約
- Authors: Mohammad Rajiur Rahman, Jaspal Subhlok and Shishir Shah
- Abstract要約: 本稿では,ナビゲーション向上のための講義映像セグメントの視覚的要約を提案する。
講義ビデオは、内容のフレーム間類似性に基づいてセグメントに分割される。
本研究の結果は,ビデオポイントと呼ばれる実世界の講義ビデオ管理ポータルに統合されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lecture videos are an increasingly important learning resource for higher
education. However, the challenge of quickly finding the content of interest in
a lecture video is an important limitation of this format. This paper
introduces visual summarization of lecture video segments to enhance
navigation. A lecture video is divided into segments based on the
frame-to-frame similarity of content. The user navigates the lecture video
content by viewing a single frame visual and textual summary of each segment.
The paper presents a novel methodology to generate the visual summary of a
lecture video segment by computing similarities between images extracted from
the segment and employing a graph-based algorithm to identify the subset of
most representative images. The results from this research are integrated into
a real-world lecture video management portal called Videopoints. To collect
ground truth for evaluation, a survey was conducted where multiple users
manually provided visual summaries for 40 lecture video segments. The users
also stated whether any images were not selected for the summary because they
were similar to other selected images. The graph based algorithm for
identifying summary images achieves 78% precision and 72% F1-measure with
frequently selected images as the ground truth, and 94% precision and 72%
F1-measure with the union of all user selected images as the ground truth. For
98% of algorithm selected visual summary images, at least one user also
selected that image for their summary or considered it similar to another image
they selected. Over 65% of automatically generated summaries were rated as good
or very good by the users on a 4-point scale from poor to very good. Overall,
the results establish that the methodology introduced in this paper produces
good quality visual summaries that are practically useful for lecture video
navigation.
- Abstract(参考訳): 講義ビデオは、高等教育にとってますます重要な学習資源である。
しかしながら、講義ビデオで興味のあるコンテンツを簡単に見つけるという課題は、このフォーマットの重要な制限である。
本稿では,ナビゲーション向上のための講義映像セグメントの視覚的要約を提案する。
講義ビデオは、コンテンツのフレーム間類似性に基づいてセグメントに分割される。
ユーザは、各セグメントの1フレームの視覚的およびテキスト的要約を見て、講義ビデオコンテンツをナビゲートする。
本稿では,そのセグメントから抽出した画像間の類似性を計算し,ほとんどの代表画像のサブセットを特定するグラフベースのアルゴリズムを用いて講義映像セグメントの視覚的要約を生成する手法を提案する。
この研究の結果は、実世界の講義ビデオ管理ポータルであるvideopointsに統合されている。
評価のための基礎的真実を収集するために,複数のユーザが手作業で40の講義ビデオセグメントにビジュアル要約を提供する調査を行った。
ユーザーは、他の選択された画像と似ているため、要約のために画像が選択されなかったかどうかも明かした。
要約画像識別のためのグラフベースアルゴリズムは、頻繁に選択された画像を基底真理とし、78%の精度と72%のf1測定値と、94%の精度と72%のf1測定値とを基底真理とする。
アルゴリズム選択された視覚要約画像の98%に対して、少なくとも1人のユーザがその要約画像を選択したり、選択した画像に類似していると考えたりした。
自動生成したサマリーの65%以上が、貧乏から非常に良質な4ポイントスケールで、ユーザによって良いか非常に良いと評価された。
全体として,本論文で紹介した手法は,講義ビデオナビゲーションに有用な高品質な視覚要約を作成できることを示す。
関連論文リスト
- FastPerson: Enhancing Video Learning through Effective Video Summarization that Preserves Linguistic and Visual Contexts [23.6178079869457]
本稿では,講義ビデオにおける視覚情報と聴覚情報の両方を考慮した映像要約手法であるFastPersonを提案する。
FastPersonは、音声の書き起こしと画面上の画像とテキストを利用して要約ビデオを作成する。
従来のビデオ再生方式と同じレベルの理解度で視聴時間を53%短縮する。
論文 参考訳(メタデータ) (2024-03-26T14:16:56Z) - Correlation-aware active learning for surgery video segmentation [13.327429312047396]
本研究は,手術ビデオセグメンテーション,COWAL,Correlation-aWare Active Learningのための新しいAL戦略を提案する。
提案手法では、コントラスト学習を用いて微調整された遅延空間に画像を投影し、ビデオフレームの局所クラスタから一定数の代表画像を選択する。
手術器具の2つのビデオデータセットと実世界の3つのビデオデータセットに対して,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-15T09:30:52Z) - Active Learning for Video Classification with Frame Level Queries [13.135234328352885]
ビデオ分類のための新しいアクティブラーニングフレームワークを提案する。
本フレームワークでは,ビデオ毎に一組の映像と,一組の情報フレームを識別する。
これは、ラベルを付けるための完全なビデオを見るよりも、手作業で作業する方がずっと少ない。
論文 参考訳(メタデータ) (2023-07-10T15:47:13Z) - Visual Commonsense-aware Representation Network for Video Captioning [84.67432867555044]
ビデオキャプションのためのシンプルで効果的なVisual Commonsense-aware Representation Network (VCRN)を提案する。
提案手法は最先端の性能に到達し,提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-11-17T11:27:15Z) - TL;DW? Summarizing Instructional Videos with Task Relevance &
Cross-Modal Saliency [133.75876535332003]
我々は,ビデオ要約の未探索領域である指導ビデオの要約に焦点をあてる。
既存のビデオ要約データセットは、手動のフレームレベルのアノテーションに依存している。
本稿では,文脈対応の時間的ビデオエンコーダとセグメントスコアリング変換器を組み合わせた指導ビデオ要約ネットワークを提案する。
論文 参考訳(メタデータ) (2022-08-14T04:07:40Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Learning Video Representations from Textual Web Supervision [97.78883761035557]
本稿では,映像表現の学習方法としてテキストを用いることを提案する。
我々は、インターネット上で公開されている7000万の動画クリップを収集し、各ビデオと関連するテキストをペアリングするモデルを訓練する。
提案手法は,映像表現の事前学習に有効な方法であることがわかった。
論文 参考訳(メタデータ) (2020-07-29T16:19:50Z) - Text Synopsis Generation for Egocentric Videos [72.52130695707008]
我々は、長い自我中心の動画の中で最も重要な出来事を記述したいくつかの文からなるテキスト合成を生成することを提案する。
ユーザーは短いテキストを読んでビデオについての洞察を得ることができ、さらに重要なのは、大きなビデオデータベースのコンテンツを効率的に検索できることだ。
論文 参考訳(メタデータ) (2020-05-08T00:28:00Z) - Straight to the Point: Fast-forwarding Videos via Reinforcement Learning
Using Textual Data [1.004766879203303]
本稿では,指導ビデオの高速化を目的とした強化学習の定式化に基づく新しい手法を提案する。
本手法では,最終映像のギャップを生じさせることなく,情報伝達に関係のないフレームを適応的に選択できる。
本稿では,VDAN(Visually-Guided Document Attention Network)と呼ばれる新しいネットワークを提案する。
論文 参考訳(メタデータ) (2020-03-31T14:07:45Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。