論文の概要: Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides
- arxiv url: http://arxiv.org/abs/2208.08080v1
- Date: Wed, 17 Aug 2022 05:30:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:12:13.181759
- Title: Multimodal Lecture Presentations Dataset: Understanding Multimodality in
Educational Slides
- Title(参考訳): マルチモーダルプレゼンテーションデータセット:教育スライドにおけるマルチモーダル理解
- Authors: Dong Won Lee, Chaitanya Ahuja, Paul Pu Liang, Sanika Natu,
Louis-Philippe Morency
- Abstract要約: 学習内容のマルチモーダル理解における機械学習モデルの能力を検証する。
このデータセットには,180時間以上のビデオと9000時間以上のスライドが,各科目から10人の講師が参加している。
マルチモーダル・トランスフォーマーであるPolyViLTを導入する。
- 参考スコア(独自算出の注目度): 57.86931911522967
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lecture slide presentations, a sequence of pages that contain text and
figures accompanied by speech, are constructed and presented carefully in order
to optimally transfer knowledge to students. Previous studies in multimedia and
psychology attribute the effectiveness of lecture presentations to their
multimodal nature. As a step toward developing AI to aid in student learning as
intelligent teacher assistants, we introduce the Multimodal Lecture
Presentations dataset as a large-scale benchmark testing the capabilities of
machine learning models in multimodal understanding of educational content. Our
dataset contains aligned slides and spoken language, for 180+ hours of video
and 9000+ slides, with 10 lecturers from various subjects (e.g., computer
science, dentistry, biology). We introduce two research tasks which are
designed as stepping stones towards AI agents that can explain (automatically
captioning a lecture presentation) and illustrate (synthesizing visual figures
to accompany spoken explanations) educational content. We provide manual
annotations to help implement these two research tasks and evaluate
state-of-the-art models on them. Comparing baselines and human student
performances, we find that current models struggle in (1) weak crossmodal
alignment between slides and spoken text, (2) learning novel visual mediums,
(3) technical language, and (4) long-range sequences. Towards addressing this
issue, we also introduce PolyViLT, a multimodal transformer trained with a
multi-instance learning loss that is more effective than current approaches. We
conclude by shedding light on the challenges and opportunities in multimodal
understanding of educational presentations.
- Abstract(参考訳): 講義スライドのプレゼンテーションは、学生に最適な知識を伝達するために、テキストと音声を伴う図形を含む一連のページを構築し、慎重に提示する。
マルチメディアと心理学におけるこれまでの研究は、講義のプレゼンテーションの有効性をマルチモーダル性に限定している。
知的教師アシスタントとしての学習を支援するAI開発に向けたステップとして,学習内容のマルチモーダル理解における機械学習モデルの能力をテストする大規模ベンチマークとして,マルチモーダル講義プレゼンテーションデータセットを導入する。
このデータセットには、180時間以上のビデオと9000時間以上のスライドを並べたスライドと音声言語が含まれており、様々な科目(コンピュータ科学、歯科医学、生物学など)から10人の講師が参加している。
本稿では,AIエージェントへのステップストーンとしてデザインされた2つの研究課題について紹介する。
これら2つの研究タスクの実装を支援し,その上で最先端のモデルを評価するための手動アノテーションを提供する。
ベースラインと人的学生のパフォーマンスを比較すると,(1)スライドと音声テキスト間の弱いクロスモーダルアライメント,(2)新しいビジュアルメディアの学習,(3)技術的言語,(4)長距離シーケンスにおいて,現在のモデルが苦労していることが分かる。
この問題に対処するために,既存のアプローチよりも効果的なマルチインスタンス学習損失をトレーニングしたマルチモーダルトランスフォーマーであるPolyViLTを導入する。
最後に,教育プレゼンテーションのマルチモーダル理解における課題と機会について概説する。
関連論文リスト
- Language as the Medium: Multimodal Video Classification through text
only [3.744589644319257]
マルチモーダル映像情報をキャプチャする詳細なテキスト記述を生成するためのモデルに依存しない新しい手法を提案する。
本手法は, GPT-3.5 や Llama2 といった大規模言語モデルによって学習された広範な知識を活用する。
UCF-101 や Kinetics などの一般的な行動認識ベンチマークによる評価は,これらの文脈に富んだ記述をビデオ理解タスクでうまく利用できることを示す。
論文 参考訳(メタデータ) (2023-09-19T17:32:21Z) - Valley: Video Assistant with Large Language model Enhanced abilitY [41.79449203718827]
大規模言語モデル強化型ビデオアシスタントであるValleyを紹介した。
映像理解と指示追従能力でバレーを強化するため,映像指導データセットを構築した。
タスク指向会話データの構築を容易にするためにChatGPTを用いる。
論文 参考訳(メタデータ) (2023-06-12T16:11:10Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Unsupervised Audio-Visual Lecture Segmentation [31.29084124332193]
AVLecturesは,STEMを対象とする2,350以上の講義を対象とする86のコースからなるデータセットである。
第2のコントリビューションは,ビデオ講義セグメンテーションの導入である。
我々はこれらの表現を用いて時間的に一貫した1-アネレスト隣のアルゴリズムTW-FINCHを用いてセグメントを生成する。
論文 参考訳(メタデータ) (2022-10-29T16:26:34Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Video Captioning with Guidance of Multimodal Latent Topics [123.5255241103578]
我々は、データから教師なしの方法でマルチモーダルトピックをマイニングする統合キャプションフレームワークM&M TGMを提案する。
事前に定義されたトピックと比較して、マイニングされたマルチモーダルトピックはより意味的に、視覚的に一貫性がある。
MSR-VTTとYoutube2Textのデータセットを用いた大規模な実験の結果,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2017-08-31T11:18:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。