論文の概要: CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures
- arxiv url: http://arxiv.org/abs/2201.05651v1
- Date: Fri, 14 Jan 2022 19:51:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-22 21:09:05.198851
- Title: CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures
- Title(参考訳): CLUE:ビデオ講義におけるユーザエンゲージメントのコンテキスト統一型説明可能な学習
- Authors: Sujit Roy, Gnaneswara Rao Gorle, Vishal Gaur, Haider Raza, Shoaib
Jameel
- Abstract要約: 本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
- 参考スコア(独自算出の注目度): 6.25256391074865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting contextualised engagement in videos is a long-standing problem
that has been popularly attempted by exploiting the number of views or the
associated likes using different computational methods. The recent decade has
seen a boom in online learning resources, and during the pandemic, there has
been an exponential rise of online teaching videos without much quality
control. The quality of the content could be improved if the creators could get
constructive feedback on their content. Employing an army of domain expert
volunteers to provide feedback on the videos might not scale. As a result,
there has been a steep rise in developing computational methods to predict a
user engagement score that is indicative of some form of possible user
engagement, i.e., to what level a user would tend to engage with the content. A
drawback in current methods is that they model various features separately, in
a cascaded approach, that is prone to error propagation. Besides, most of them
do not provide crucial explanations on how the creator could improve their
content. In this paper, we have proposed a new unified model, CLUE for the
educational domain, which learns from the features extracted from freely
available public online teaching videos and provides explainable feedback on
the video along with a user engagement score. Given the complexity of the task,
our unified framework employs different pre-trained models working together as
an ensemble of classifiers. Our model exploits various multi-modal features to
model the complexity of language, context agnostic information, textual emotion
of the delivered content, animation, speaker's pitch and speech emotions. Under
a transfer learning setup, the overall model, in the unified space, is
fine-tuned for downstream applications.
- Abstract(参考訳): ビデオにおけるコンテクスト化されたエンゲージメントの予測は、様々な計算方法を用いて、ビュー数や関連するいいね!
この10年間、オンライン学習リソースが急増し、パンデミックの間、品質管理のないオンライン教育ビデオが指数関数的に増加している。
クリエーターがコンテンツに対して建設的なフィードバックを得ることができれば、コンテンツの品質が向上する可能性がある。
ビデオに対するフィードバックを提供するために、ドメインエキスパートのボランティアの軍隊を雇うことは、スケールしないかもしれない。
その結果、ユーザーエンゲージメントスコアを予測するための計算手法の開発が急上昇しており、それはユーザーのエンゲージメントの何らかの形態、すなわち、ユーザーがコンテンツと関わりやすいレベルを示す。
現在の方法の欠点は、さまざまな機能を個別にモデル化することであり、カスケードなアプローチでは、エラーの伝播が容易である。
さらに、そのほとんどは、クリエイターがコンテンツを改善する方法に関する重要な説明を提供していない。
そこで本稿では,無料オンライン授業ビデオから抽出した特徴から学習し,ユーザエンゲージメントスコアとともに動画に対する説明可能なフィードバックを提供する,教育領域のための新しい統一モデルであるcucumer for the educational domainを提案する。
タスクの複雑さを考えると、我々の統合されたフレームワークは、異なる事前訓練されたモデルを用いて分類器のアンサンブルとして動作する。
本モデルは,言語,文脈に依存しない情報,提供内容のテキスト感情,アニメーション,話者のピッチ,音声感情をモデル化するために,様々なマルチモーダル特徴を利用する。
転送学習のセットアップでは、統一空間における全体的なモデルは、下流アプリケーション用に微調整されます。
関連論文リスト
- ExpertAF: Expert Actionable Feedback from Video [81.46431188306397]
本研究では,身体活動を行う人の映像から行動可能なフィードバックを生成する新しい手法を提案する。
提案手法は,映像のデモンストレーションとそれに伴う3Dボディーポーズを取り,専門家による解説を生成する。
提案手法は,マルチモーダルな入力の組み合わせを解析し,フルスペクトルで実用的なコーチングを出力することができる。
論文 参考訳(メタデータ) (2024-08-01T16:13:07Z) - Video Annotator: A framework for efficiently building video classifiers
using vision-language models and active learning [0.0]
Video Annotator(VA)は、ビデオ分類データセットに注釈を付け、管理し、反復するフレームワークである。
VAは、データ収集とモデルのトレーニングをシームレスに統合する、継続的アノテーションプロセスを可能にする。
VAは、最も競争力のあるベースラインと比較して平均精度が6.8ポイント改善されている。
論文 参考訳(メタデータ) (2024-02-09T17:19:05Z) - VaQuitA: Enhancing Alignment in LLM-Assisted Video Understanding [63.075626670943116]
本稿では,映像情報とテキスト情報の相乗効果を向上するための最先端フレームワークであるVaQuitAを紹介する。
データレベルでは、フレームを均一にサンプリングする代わりに、CLIPスコアランキングでガイドされるサンプリング手法を実装している。
機能レベルでは、Visual-Query Transformerと一緒にトレーニング可能なVideo Perceiverを統合します。
論文 参考訳(メタデータ) (2023-12-04T19:48:02Z) - Language as the Medium: Multimodal Video Classification through text
only [3.744589644319257]
マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しない新しい手法を提案する。
本手法は, GPT-3.5 や Llama2 といった大規模言語モデルによって学習された広範な知識を活用する。
UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。
論文 参考訳(メタデータ) (2023-09-19T17:32:21Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - VLEngagement: A Dataset of Scientific Video Lectures for Evaluating
Population-based Engagement [23.078055803229912]
ビデオ講義は、現在のデジタル時代の大衆に知識を与える主要なモダリティの1つとなっている。
科学ビデオ講義における学習者の関与を理解することを目的としたデータと研究は依然として重要なニーズである。
本稿では,VLEngagementについて紹介する。VLEngagementは,公開科学ビデオ講義から抽出したコンテンツベースおよびビデオ特有の特徴からなる,新しいデータセットである。
論文 参考訳(メタデータ) (2020-11-02T14:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。