論文の概要: BachVid: Training-Free Video Generation with Consistent Background and Character
- arxiv url: http://arxiv.org/abs/2510.21696v1
- Date: Fri, 24 Oct 2025 17:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.564173
- Title: BachVid: Training-Free Video Generation with Consistent Background and Character
- Title(参考訳): BachVid: 一貫性のあるバックグラウンドとキャラクタを備えたトレーニング不要のビデオ生成
- Authors: Han Yan, Xibin Song, Yifu Wang, Hongdong Li, Pan Ji, Chao Ma,
- Abstract要約: Diffusion Transformer (DiTs) は、最近、テキスト・トゥ・ビデオ(T2V)生成に大きな進歩をもたらした。
既存のメソッドは通常、参照イメージや広範なトレーニングに依存しており、しばしば文字の一貫性にのみ対処する。
我々は、参照画像を必要としない一貫したビデオ生成を実現する、最初のトレーニング不要な方法であるBachVidを紹介する。
- 参考スコア(独自算出の注目度): 62.46376250180513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion Transformers (DiTs) have recently driven significant progress in text-to-video (T2V) generation. However, generating multiple videos with consistent characters and backgrounds remains a significant challenge. Existing methods typically rely on reference images or extensive training, and often only address character consistency, leaving background consistency to image-to-video models. We introduce BachVid, the first training-free method that achieves consistent video generation without needing any reference images. Our approach is based on a systematic analysis of DiT's attention mechanism and intermediate features, revealing its ability to extract foreground masks and identify matching points during the denoising process. Our method leverages this finding by first generating an identity video and caching the intermediate variables, and then inject these cached variables into corresponding positions in newly generated videos, ensuring both foreground and background consistency across multiple videos. Experimental results demonstrate that BachVid achieves robust consistency in generated videos without requiring additional training, offering a novel and efficient solution for consistent video generation without relying on reference images or additional training.
- Abstract(参考訳): Diffusion Transformer (DiTs) は、最近、テキスト・トゥ・ビデオ(T2V)生成に大きな進歩をもたらした。
しかし、一貫したキャラクターと背景を持つ複数のビデオを生成することは、依然として大きな課題である。
既存の手法は通常、参照画像や広範なトレーニングに依存しており、しばしば文字の一貫性にのみ対処し、背景の一貫性は画像からビデオモデルに委ねられる。
我々は、参照画像を必要としない一貫したビデオ生成を実現する、最初のトレーニング不要な方法であるBachVidを紹介する。
提案手法は,DiTの注意機構と中間的特徴を体系的に解析し,前景マスクを抽出し,認知過程において一致点を識別する能力を明らかにする。
提案手法は,まずIDビデオを生成し,中間変数をキャッシュし,そのキャッシュした変数を新たに生成したビデオの対応する位置に注入することにより,複数のビデオ間の前景と背景の整合性を確保する。
実験の結果、BachVidは、追加のトレーニングを必要とせず、参照画像や追加のトレーニングに頼らずに、一貫したビデオ生成のための新しい、効率的なソリューションを提供する。
関連論文リスト
- PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation [36.21554597804604]
カスタマイズされたID画像を持つアイデンティティ固有のヒューマンビデオ生成はまだ未調査である。
鍵となる課題は、元の動きのダイナミックさとセマンティックスを保ちながら、ハイIDの忠実さを一貫して維持することである。
我々は、合成ビデオに報酬監督の混合を適用する、$textbfPersonalVideo$と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-26T02:25:38Z) - Exploring Pre-trained Text-to-Video Diffusion Models for Referring Video Object Segmentation [72.90144343056227]
ビデオ理解タスクのためのテキスト・ツー・ビデオ拡散モデル(T2V)から生成した視覚的表現について検討する。
固定されたT2Vモデル上に構築された専用コンポーネントを備えた新しいフレームワーク「VD-IT」を紹介する。
我々のVD-ITは、既存の最先端手法を超越して、非常に競争力のある結果を得る。
論文 参考訳(メタデータ) (2024-03-18T17:59:58Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z) - Blind Video Temporal Consistency via Deep Video Prior [61.062900556483164]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
本手法は,一対のオリジナルビデオとプロセッシングビデオを直接トレーニングするのみである。
本稿では,Deep Video Priorを用いてビデオ上の畳み込みネットワークをトレーニングすることにより,時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-22T16:19:20Z) - Non-Adversarial Video Synthesis with Learned Priors [53.26777815740381]
我々は、参照入力フレームを使わずに、遅延雑音ベクトルからビデオを生成する問題に焦点をあてる。
本研究では,入力潜時空間,繰り返しニューラルネットワークの重み付け,非対角学習によるジェネレータを協調的に最適化する手法を開発した。
提案手法は,既存の最先端手法と比較して高品質なビデオを生成する。
論文 参考訳(メタデータ) (2020-03-21T02:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。