論文の概要: AutoLV: Automatic Lecture Video Generator
- arxiv url: http://arxiv.org/abs/2209.08795v1
- Date: Mon, 19 Sep 2022 07:00:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 20:15:44.394565
- Title: AutoLV: Automatic Lecture Video Generator
- Title(参考訳): AutoLV: 講義ビデオ自動生成装置
- Authors: Wenbin Wang, Yang Song, Sanjay Jha
- Abstract要約: 本稿では,エンド・ツー・エンドの講義ビデオ生成システムを提案する。
注釈付きスライド、インストラクターのレファレンス音声、インストラクターのレファレンスポートレートビデオから直接、リアルで完全な講義ビデオを生成することができる。
- 参考スコア(独自算出の注目度): 16.73368874008744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an end-to-end lecture video generation system that can generate
realistic and complete lecture videos directly from annotated slides,
instructor's reference voice and instructor's reference portrait video. Our
system is primarily composed of a speech synthesis module with few-shot speaker
adaptation and an adversarial learning-based talking-head generation module. It
is capable of not only reducing instructors' workload but also changing the
language and accent which can help the students follow the lecture more easily
and enable a wider dissemination of lecture contents. Our experimental results
show that the proposed model outperforms other current approaches in terms of
authenticity, naturalness and accuracy. Here is a video demonstration of how
our system works, and the outcomes of the evaluation and comparison:
https://youtu.be/cY6TYkI0cog.
- Abstract(参考訳): 本稿では,注釈付きスライド,インストラクターの参照音声,インストラクターの参照ポートレートビデオから直接,現実的かつ完全な講義ビデオを生成できるエンドツーエンドの講義ビデオ生成システムを提案する。
本システムは主に,少数話者適応型音声合成モジュールと,逆学習に基づく対話頭生成モジュールで構成されている。
インストラクターの作業量を削減できるだけでなく、言語やアクセントの変更も可能で、学生が講義をもっと簡単に受けられるようにし、講義内容のより広範な普及を可能にする。
実験の結果,提案モデルは他の手法よりも正確性,自然性,正確性において優れていることがわかった。
以下は、私たちのシステムがどのように動作し、評価と比較の結果を示すビデオデモである。
関連論文リスト
- Intelligent Interface: Enhancing Lecture Engagement with Didactic Activity Summaries [0.054204929130712134]
このプロトタイプは、機械学習に基づく技術を用いて、講義のビデオ録画の中で選択された実践的、行動的な教師の特徴を認識する。
このシステムは、新しい/追加の機械学習モデルと画像およびビデオ分析のためのソフトウェアモジュールの(将来の)統合のための柔軟性を提供する。
論文 参考訳(メタデータ) (2024-06-20T12:45:23Z) - Towards Accurate Lip-to-Speech Synthesis in-the-Wild [31.289366690147556]
そこで本研究では,唇の動きのみをベースとしたサイレントビデオから音声を合成する手法を提案する。
リップビデオから直接音声を生成する従来のアプローチは、音声だけで堅牢な言語モデルを学べないという課題に直面している。
我々は,我々のモデルに言語情報を注入する最先端のリップ・トゥ・テキスト・ネットワークを用いて,ノイズの多いテキスト管理を導入することを提案する。
論文 参考訳(メタデータ) (2024-03-02T04:07:24Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - Video-Guided Curriculum Learning for Spoken Video Grounding [65.49979202728167]
音声言語記述から所望のビデオ断片をローカライズすることを目的とした,新たなタスクである音声ビデオグラウンドティング(SVG)を導入する。
識別音素の修正と雑音の多い音声から映像関連情報を抽出するために,新しいビデオ指導カリキュラム学習(VGCL)を開発した。
さらに,ActivityNetをベースとした,最初の大規模音声グラウンドデータセットを収集する。
論文 参考訳(メタデータ) (2022-09-01T07:47:01Z) - CLUE: Contextualised Unified Explainable Learning of User Engagement in
Video Lectures [6.25256391074865]
本稿では,オンライン授業ビデオから抽出した特徴から学習する統合モデルCLUEを提案する。
我々のモデルは、言語、文脈情報、配信されたコンテンツのテキスト感情の複雑さをモデル化するために、様々なマルチモーダル機能を利用する。
論文 参考訳(メタデータ) (2022-01-14T19:51:06Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - AVLnet: Learning Audio-Visual Language Representations from
Instructional Videos [69.56522471911396]
本稿では,生のビデオ入力から直接共有映像埋め込み空間を学習する自己教師型ネットワークであるAVLnetを紹介する。
AVLnet を HowTo100M でトレーニングし,画像検索およびビデオ検索タスクの評価を行う。
私たちのコード、データ、トレーニングされたモデルは、avlnet.csail.mit.eduでリリースされます。
論文 参考訳(メタデータ) (2020-06-16T14:38:03Z) - Vocoder-Based Speech Synthesis from Silent Videos [28.94460283719776]
深層学習を用いた話し手のサイレントビデオから音声を合成する方法を提案する。
システムは生のビデオフレームから音響特徴へのマッピング関数を学習し、ボコーダ合成アルゴリズムを用いて音声を再構成する。
論文 参考訳(メタデータ) (2020-04-06T10:22:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。