論文の概要: AI-based System for Transforming text and sound to Educational Videos
- arxiv url: http://arxiv.org/abs/2601.17022v1
- Date: Fri, 16 Jan 2026 14:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 02:21:38.502618
- Title: AI-based System for Transforming text and sound to Educational Videos
- Title(参考訳): テキストと音声を教育ビデオに変換するAIシステム
- Authors: M. E. ElAlami, S. M. Khater, M. El. R. Rehan,
- Abstract要約: 本稿では,テキストや音声などの条件付き入力から教育用ビデオを生成する新しい手法を提案する。
Generative Adversarial Network (GAN)はフレーム・フォー・フレームフレームワークを開発し、完全な教育ビデオを作成することができる。
提案システムは,TGAN,MoCoGAN,TGANS-Cなどの他のシステムと比較し,Fréchet Inception Distance(FID)スコアを28.75%とした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Technological developments have produced methods that can generate educational videos from input text or sound. Recently, the use of deep learning techniques for image and video generation has been widely explored, particularly in education. However, generating video content from conditional inputs such as text or speech remains a challenging area. In this paper, we introduce a novel method to the educational structure, Generative Adversarial Network (GAN), which develop frame-for-frame frameworks and are able to create full educational videos. The proposed system is structured into three main phases In the first phase, the input (either text or speech) is transcribed using speech recognition. In the second phase, key terms are extracted and relevant images are generated using advanced models such as CLIP and diffusion models to enhance visual quality and semantic alignment. In the final phase, the generated images are synthesized into a video format, integrated with either pre-recorded or synthesized sound, resulting in a fully interactive educational video. The proposed system is compared with other systems such as TGAN, MoCoGAN, and TGANS-C, achieving a Fréchet Inception Distance (FID) score of 28.75%, which indicates improved visual quality and better over existing methods.
- Abstract(参考訳): 技術開発は、入力テキストや音声から教育ビデオを生成する方法を生み出している。
近年,画像・映像生成におけるディープラーニング技術の利用が,特に教育において広く研究されている。
しかし、テキストや音声などの条件入力から映像コンテンツを生成することは、依然として困難な領域である。
本稿では,フレーム・フォー・フレーム・フレームワークを開発し,フル・ラーニング・ビデオを作成する,GAN(Generative Adversarial Network)という新しい手法を提案する。
最初の段階では、入力(テキストまたは音声)は音声認識を用いて書き起こされる。
第2フェーズでは、キー項を抽出し、CLIPや拡散モデルといった高度なモデルを用いて関連画像を生成し、視覚的品質とセマンティックアライメントを向上させる。
最終段階では、生成された画像はビデオ形式に合成され、事前に録音されたか合成された音と統合され、完全にインタラクティブな教育ビデオとなる。
提案システムは,他のシステム (TGAN, MoCoGAN, TGANS-C) と比較し,Fréchet Inception Distance (FID) スコア28.75%を達成し,視覚的品質の向上と既存手法よりも優れていることを示す。
関連論文リスト
- EasyGenNet: An Efficient Framework for Audio-Driven Gesture Video Generation Based on Diffusion Model [22.286624353800377]
本研究では,2次元人間の骨格を中間動作表現として用い,音声合成のための新しいパイプラインを提案する。
実験の結果,本手法は既存のGAN法および拡散法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-04-11T08:19:18Z) - TA-V2A: Textually Assisted Video-to-Audio Generation [9.957113952852051]
V2A(Video-to-audio)生成は、マルチメディア編集、拡張現実、自動コンテンツ作成において有望な領域として登場した。
本稿では,言語,音声,ビデオ機能を統合し,潜在空間における意味表現を改善するTA-V2Aを提案する。
論文 参考訳(メタデータ) (2025-03-12T06:43:24Z) - InternVideo2: Scaling Foundation Models for Multimodal Video Understanding [51.129913789991924]
InternVideo2は、ビデオファウンデーションモデル(FM)の新たなファミリーで、ビデオ認識、ビデオ音声タスク、ビデオ中心タスクの最先端の結果を達成する。
私たちのコアデザインは、マスク付きビデオモデリング、クロスコントラスト学習、予測トークンを統合し、最大6Bビデオサイズまでスケールアップするプログレッシブトレーニングアプローチです。
論文 参考訳(メタデータ) (2024-03-22T17:57:42Z) - Diverse and Aligned Audio-to-Video Generation via Text-to-Video Model
Adaptation [89.96013329530484]
本研究では,多様な意味クラスから自然音声サンプルによってガイドされる多種多様なリアルなビデオを生成するタスクについて考察する。
既存のテキスト条件付きビデオ生成モデルと事前学習されたオーディオエンコーダモデルを利用する。
提案手法は,音声映像サンプルの有意な意味的多様性を示す3つのデータセットに対して広範に検証する。
論文 参考訳(メタデータ) (2023-09-28T13:26:26Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - CLIPSonic: Text-to-Audio Synthesis with Unlabeled Videos and Pretrained
Language-Vision Models [50.42886595228255]
本稿では,橋梁としての視覚的モダリティを活用して,所望のテキスト・オーディオ対応を学習することを提案する。
我々は、事前訓練されたコントラスト言語画像事前学習モデルによって符号化されたビデオフレームを考慮し、条件付き拡散モデルを用いてビデオの音声トラックを生成する。
論文 参考訳(メタデータ) (2023-06-16T05:42:01Z) - Text2Video: Text-driven Talking-head Video Synthesis with Phonetic
Dictionary [10.590649169151055]
テキストから映像を合成するための新しいアプローチを紹介します。
この手法は、音素生成辞書を構築し、ビデオを生成するために生成敵対ネットワーク(GAN)を訓練する。
音声駆動ビデオ生成アルゴリズムと比較して、我々のアプローチには多くの利点がある。
論文 参考訳(メタデータ) (2021-04-29T19:54:41Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。