論文の概要: VidCLearn: A Continual Learning Approach for Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2509.16956v1
- Date: Sun, 21 Sep 2025 07:34:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.053442
- Title: VidCLearn: A Continual Learning Approach for Text-to-Video Generation
- Title(参考訳): VidCLearn: テキスト・ビデオ・ジェネレーションのための継続的な学習手法
- Authors: Luca Zanchetta, Lorenzo Papa, Luca Maiano, Irene Amerini,
- Abstract要約: VidCLearnはテキスト・ビデオ生成のための継続的学習フレームワークである。
動きの平滑性を高めるための新しい時間的一貫性損失と、推論における構造的ガイダンスを提供するビデオ検索モジュールを導入する。
私たちのアーキテクチャは、良好な生成性能を維持しながら、既存のモデルよりも計算効率が良いように設計されています。
- 参考スコア(独自算出の注目度): 11.861060763379236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video generation is an emerging field in generative AI, enabling the creation of realistic, semantically accurate videos from text prompts. While current models achieve impressive visual quality and alignment with input text, they typically rely on static knowledge, making it difficult to incorporate new data without retraining from scratch. To address this limitation, we propose VidCLearn, a continual learning framework for diffusion-based text-to-video generation. VidCLearn features a student-teacher architecture where the student model is incrementally updated with new text-video pairs, and the teacher model helps preserve previously learned knowledge through generative replay. Additionally, we introduce a novel temporal consistency loss to enhance motion smoothness and a video retrieval module to provide structural guidance at inference. Our architecture is also designed to be more computationally efficient than existing models while retaining satisfactory generation performance. Experimental results show VidCLearn's superiority over baseline methods in terms of visual quality, semantic alignment, and temporal coherence.
- Abstract(参考訳): テキスト・トゥ・ビデオ生成は、生成AIの新たな分野であり、テキストプロンプトからリアルで意味論的に正確なビデオを作成することができる。
現在のモデルは、印象的な視覚的品質と入力テキストとの整合性を達成するが、それらは通常静的知識に依存しており、スクラッチから再トレーニングすることなく、新しいデータを組み込むことが困難である。
この制限に対処するため,拡散に基づくテキスト・ビデオ生成のための連続学習フレームワークであるVidCLearnを提案する。
VidCLearnは、学生モデルに新しいテキスト-ビデオペアをインクリメンタルに更新する学生-教師アーキテクチャを備えており、教師モデルは、生成的再生を通じて学習した知識を保存するのに役立つ。
さらに、動きの滑らかさを高めるための新しい時間的整合性損失と、推論における構造的ガイダンスを提供するビデオ検索モジュールを導入する。
私たちのアーキテクチャは、良好な生成性能を維持しながら、既存のモデルよりも計算効率が良いように設計されています。
実験結果から,視覚的品質,セマンティックアライメント,時間的コヒーレンスの観点から,VidCLearnがベースライン法よりも優れていることが示された。
関連論文リスト
- DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models [12.393189634359064]
本稿では、Relevance-based AugMentation(DREAM)を用いたViDeoText Retrieval Paradigmを提案する。
我々はまず,単語やフレームをランダムに複製あるいはドロップすることで,自己相似データを生成する単純な拡張手法を採用する。
ビデオやテキスト情報をさらに強化するために,LLMとVGMが関連情報を生成・統合する関連性に基づく拡張手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T21:46:47Z) - Video-Teller: Enhancing Cross-Modal Generation with Fusion and
Decoupling [79.49128866877922]
Video-Tellerは、マルチモーダル融合と微粒なモーダルアライメントを利用するビデオ言語基盤モデルである。
Video-Tellerは、凍結した事前訓練されたビジョンと言語モジュールを利用することで、トレーニング効率を高める。
大規模言語モデルの堅牢な言語機能を活用し、簡潔かつ精巧なビデオ記述の生成を可能にする。
論文 参考訳(メタデータ) (2023-10-08T03:35:27Z) - In-Style: Bridging Text and Uncurated Videos with Style Transfer for
Text-Video Retrieval [72.98185525653504]
トレーニング中は、テキストクエリと未処理のWebビデオのみを併用する、未修正データによる新しい設定、テキストビデオ検索を提案する。
一般化を改善するために、複数のテキストスタイルで1つのモデルを訓練できることを示す。
提案手法の利点を実証するため,複数のデータセットを対象とした検索性能のモデルの評価を行った。
論文 参考訳(メタデータ) (2023-09-16T08:48:21Z) - VideoGen: A Reference-Guided Latent Diffusion Approach for High
Definition Text-to-Video Generation [73.54366331493007]
VideoGenはテキスト・ツー・ビデオ生成方式であり、フレームの忠実度が高く、時間的一貫性の強い高精細なビデオを生成することができる。
我々は,テキストプロンプトから高品質な画像を生成するために,既製のテキスト画像生成モデル,例えば,安定拡散(Stable Diffusion)を利用する。
論文 参考訳(メタデータ) (2023-09-01T11:14:43Z) - Make-Your-Video: Customized Video Generation Using Textual and
Structural Guidance [36.26032505627126]
近年のテキスト・ビデオ合成の進歩は、プロンプトのみを用いてこれを実現する可能性を明らかにしている。
本稿では,テキストをコンテキスト記述や動き構造として利用して,カスタマイズされた映像生成について検討する。
提案手法はMake-Your-Videoと呼ばれ,遅延拡散モデルを用いた共同条件映像生成を伴う。
論文 参考訳(メタデータ) (2023-06-01T17:43:27Z) - DirecT2V: Large Language Models are Frame-Level Directors for Zero-Shot
Text-to-Video Generation [37.25815760042241]
本稿では,テキスト・ツー・ビデオ(T2V)ビデオを生成するための新しいフレームワークであるDirecT2Vを紹介する。
拡散モデルに新しい値マッピング法とデュアルソフトマックスフィルタリングを適用し、追加のトレーニングを必要としない。
実験により,視覚的コヒーレントかつストーリーフルなビデオ制作におけるフレームワークの有効性が検証された。
論文 参考訳(メタデータ) (2023-05-23T17:57:09Z) - Video Generation from Text Employing Latent Path Construction for
Temporal Modeling [70.06508219998778]
ビデオ生成は、機械学習とコンピュータビジョンの分野における最も困難なタスクの1つである。
本稿では,映像生成の条件形式であるテキストから映像生成の問題に取り組む。
自然言語文からのビデオ生成が人工知能に重要な影響を与えると考えている。
論文 参考訳(メタデータ) (2021-07-29T06:28:20Z) - TiVGAN: Text to Image to Video Generation with Step-by-Step Evolutionary
Generator [34.7504057664375]
本稿では、フレーム単位で進化し、最終的にフル長のビデオを生成する新しいトレーニングフレームワーク、Text-to-Image-to-Video Generative Adversarial Network (TiVGAN)を提案する。
ステップバイステップの学習プロセスは、トレーニングの安定化を支援し、条件付きテキスト記述に基づく高解像度ビデオの作成を可能にする。
論文 参考訳(メタデータ) (2020-09-04T06:33:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。