論文の概要: Bring Your Dreams to Life: Continual Text-to-Video Customization
- arxiv url: http://arxiv.org/abs/2512.05802v1
- Date: Fri, 05 Dec 2025 15:25:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.078871
- Title: Bring Your Dreams to Life: Continual Text-to-Video Customization
- Title(参考訳): 夢を生き返らせる:連続的なテキスト対ビデオのカスタマイズ
- Authors: Jiahua Dong, Xudong Wang, Wenqi Liang, Zongyan Han, Meng Cao, Duzhen Zhang, Hanbin Zhao, Zhi Han, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: 我々は,忘れと概念の無視に対処するために,連続的カスタマイズビデオ拡散モデルを開発した。
概念の無視に対処するため,地域特性を高め,映像コンテキストをユーザ条件と整合させる制御可能な条件合成を開発した。
- 参考スコア(独自算出の注目度): 76.70414091514704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Customized text-to-video generation (CTVG) has recently witnessed great progress in generating tailored videos from user-specific text. However, most CTVG methods assume that personalized concepts remain static and do not expand incrementally over time. Additionally, they struggle with forgetting and concept neglect when continuously learning new concepts, including subjects and motions. To resolve the above challenges, we develop a novel Continual Customized Video Diffusion (CCVD) model, which can continuously learn new concepts to generate videos across various text-to-video generation tasks by tackling forgetting and concept neglect. To address catastrophic forgetting, we introduce a concept-specific attribute retention module and a task-aware concept aggregation strategy. They can capture the unique characteristics and identities of old concepts during training, while combining all subject and motion adapters of old concepts based on their relevance during testing. Besides, to tackle concept neglect, we develop a controllable conditional synthesis to enhance regional features and align video contexts with user conditions, by incorporating layer-specific region attention-guided noise estimation. Extensive experimental comparisons demonstrate that our CCVD outperforms existing CTVG models. The code is available at https://github.com/JiahuaDong/CCVD.
- Abstract(参考訳): カスタマイズされたテキスト・ツー・ビデオ生成(CTVG)は、最近、ユーザ固有のテキストからカスタマイズされたビデオを生成する大きな進歩を目撃している。
しかし、ほとんどのCTVG法は、パーソナライズされた概念は静的のままであり、時間とともに徐々に拡張されないと仮定している。
さらに、彼らは、主題や動きを含む新しい概念を継続的に学習する際に、忘れることと概念の無視に苦労する。
上記の課題を解決するために,新たなCCVDモデルを開発した。これは,忘れたり無視したりすることで,様々なテキスト・ビデオ生成タスクにまたがるビデオを生成するための,新しい概念を継続的に学習することができる。
破滅的な忘れに対処するために,概念固有の属性保持モジュールとタスク認識の概念集約戦略を導入する。
トレーニング中の古い概念の特徴とアイデンティティを捉えつつ、テスト中の関連性に基づいて、古い概念の主題と動きのアダプタをすべて組み合わせます。
さらに,概念の無視に対処するため,レイヤ固有の領域注意誘導雑音推定を組み込むことで,地域特徴の強化と映像コンテキストのユーザ条件との整合を図るための制御可能な条件合成を開発した。
我々のCCVDは既存のCTVGモデルよりも優れています。
コードはhttps://github.com/JiahuaDong/CCVDで入手できる。
関連論文リスト
- Zero-Shot Dynamic Concept Personalization with Grid-Based LoRA [84.89284738178932]
テキスト・ビデオ・モデルにおける動的概念のパーソナライズのためのゼロショットフレームワークを提案する。
提案手法は,空間的に入力と出力のペアを整理する構造化2x2ビデオグリッドを利用する。
専用のグリッドフィルモジュールが部分的に観測されたレイアウトを完了し、時間的に一貫性とアイデンティティを保った出力を生成する。
論文 参考訳(メタデータ) (2025-07-23T22:09:38Z) - SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction [65.15449703659772]
ビデオオブジェクト(VOS)はコンピュータビジョンにおける中核的なタスクであり、ターゲットオブジェクトの追跡とセグメント化をモデルに要求する。
本稿では,従来の特徴マッチングから,高レベルなオブジェクト中心表現のプログレッシブな構築と利用へ移行する概念駆動セグメンテーションフレームワークであるセグメンテーション概念(SeC)を提案する。
SeCはSAM SeCVOSよりも11.8ポイント改善され、最先端のコンセプトを意識したビデオオブジェクトセグメンテーションが新たに確立された。
論文 参考訳(メタデータ) (2025-07-21T17:59:02Z) - Leveraging Modality Tags for Enhanced Cross-Modal Video Retrieval [26.40393400497247]
ビデオ検索には、視覚コンテンツを対応する自然言語記述と整合させる必要がある。
本稿では、ビデオ検索のためのModality Auxiliary Concepts(MAC-VR)を紹介する。
我々は、潜在空間におけるモダリティの整合と、補助潜在概念の学習と整合性を提案する。
論文 参考訳(メタデータ) (2025-04-02T10:56:01Z) - ConceptMaster: Multi-Concept Video Customization on Diffusion Transformer Models Without Test-Time Tuning [40.70596166863986]
マルチコンセプトビデオカスタマイズ(MCVC)は依然として大きな課題である。
本稿では,ID分離問題に効果的に対処する新しいフレームワークであるConceptMasterを紹介する。
ビデオのカスタマイズタスクでは,ConceptMasterが従来よりも大幅に優れていたことが示される。
論文 参考訳(メタデータ) (2025-01-08T18:59:01Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities [56.5742116979914]
CustomCrafterは、追加のビデオやリカバリのための微調整なしで、モデルの動き生成と概念的な組み合わせ能力を保持する。
動作生成では,VDMが早期に映像の動きを回復する傾向が見られた。
復調の後期では、特定対象の外観詳細を修復するために、このモジュールを復元する。
論文 参考訳(メタデータ) (2024-08-23T17:26:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。