論文の概要: Incorporating Domain Knowledge To Improve Topic Segmentation Of Long
MOOC Lecture Videos
- arxiv url: http://arxiv.org/abs/2012.07589v1
- Date: Tue, 8 Dec 2020 13:37:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 06:33:54.803639
- Title: Incorporating Domain Knowledge To Improve Topic Segmentation Of Long
MOOC Lecture Videos
- Title(参考訳): 長期MOOC講義ビデオのトピックセグメンテーションを改善するためのドメイン知識の導入
- Authors: Ananda Das, Partha Pratim Das
- Abstract要約: 本稿では,長い講義ビデオ内に存在するさまざまなコヒーレントなトピックを自動的に検出するアルゴリズムを提案する。
音声からテキストへの書き起こしにおける言語モデルを用いて,ビデオ全体の暗黙的な意味を捉える。
また、インストラクターが結合し、教育中に異なる概念を結びつける方法を捉えることができるドメイン知識も活用します。
- 参考スコア(独自算出の注目度): 4.189643331553923
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Topical Segmentation poses a great role in reducing search space of the
topics taught in a lecture video specially when the video metadata lacks topic
wise segmentation information. This segmentation information eases user efforts
of searching, locating and browsing a topic inside a lecture video. In this
work we propose an algorithm, that combines state-of-the art language model and
domain knowledge graph for automatically detecting different coherent topics
present inside a long lecture video. We use the language model on
speech-to-text transcription to capture the implicit meaning of the whole video
while the knowledge graph provides us the domain specific dependencies between
different concepts of that subjects. Also leveraging the domain knowledge we
can capture the way instructor binds and connects different concepts while
teaching, which helps us in achieving better segmentation accuracy. We tested
our approach on NPTEL lecture videos and holistic evaluation shows that it out
performs the other methods described in the literature.
- Abstract(参考訳): トピックセグメンテーションは、ビデオメタデータにトピックワイズセグメンテーション情報がない場合に、講義ビデオで教えられたトピックの検索スペースを減らす上で大きな役割を果たす。
このセグメンテーション情報は、講義ビデオ内のトピックを検索、配置、閲覧するユーザの作業を容易にする。
本研究では,最先端の言語モデルとドメイン知識グラフを組み合わせて,講義ビデオ内に存在する異なるコヒーレントトピックを自動的に検出するアルゴリズムを提案する。
我々は、音声からテキストへの書き起こしに言語モデルを用いて、ビデオ全体の暗黙の意味を捉え、知識グラフは、その主題の異なる概念間のドメイン固有の依存関係を提供する。
また、ドメインの知識を活用することで、インストラクターが教えながら異なる概念を結び付けて接続する方法を捉えることができます。
提案手法をnptelの講義ビデオで検証し,文献に記述された他の手法を総合的に評価した。
関連論文リスト
- ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - Hybrid-Learning Video Moment Retrieval across Multi-Domain Labels [34.88705952395676]
ビデオモーメント検索(VMR)とは、与えられたテキストクエリ記述(文)により、未編集の生ビデオ中の視覚的時間モーメントを検索することである。
本稿では,知識伝達による問題解決のために,ハイブリッド学習ビデオモーメント検索という新しい手法を提案する。
本研究の目的は,弱層対象領域におけるモデル学習を改善するために,両領域間の共通知識を探索することである。
論文 参考訳(メタデータ) (2024-06-03T21:14:53Z) - Unsupervised Audio-Visual Lecture Segmentation [31.29084124332193]
AVLecturesは,STEMを対象とする2,350以上の講義を対象とする86のコースからなるデータセットである。
第2のコントリビューションは,ビデオ講義セグメンテーションの導入である。
我々はこれらの表現を用いて時間的に一貫した1-アネレスト隣のアルゴリズムTW-FINCHを用いてセグメントを生成する。
論文 参考訳(メタデータ) (2022-10-29T16:26:34Z) - Self-Supervised Learning for Videos: A Survey [70.37277191524755]
自己教師型学習は、画像ドメインとビデオドメインの両方で有望である。
本稿では,ビデオ領域に着目した自己教師型学習における既存のアプローチについて概観する。
論文 参考訳(メタデータ) (2022-06-18T00:26:52Z) - Contrastive Graph Multimodal Model for Text Classification in Videos [9.218562155255233]
我々は、マルチモーダル情報を融合させることで、ビデオテキスト分類の新しい課題に最初に対処する。
レイアウト情報を明示的に抽出することで特徴表現を強化するために、相関ネットと呼ばれる特定のモジュールを調整します。
我々は、ビデオテキスト認識および分類アプリケーションの構築と評価を目的とした、TI-Newsと呼ばれるニュースドメインから、明確に定義された新しい産業データセットを構築した。
論文 参考訳(メタデータ) (2022-06-06T04:06:21Z) - Video-Text Pre-training with Learned Regions [59.30893505895156]
Video-Textプレトレーニングは、大規模なビデオテキストペアから転送可能な表現を学ぶことを目的としている。
本研究では,大規模ビデオテキストペアの事前学習において,対象物の構造を考慮に入れたビデオテキスト学習用モジュール「RereaLearner」を提案する。
論文 参考訳(メタデータ) (2021-12-02T13:06:53Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。