論文の概要: UniTransfer: Video Concept Transfer via Progressive Spatial and Timestep Decomposition
- arxiv url: http://arxiv.org/abs/2509.21086v1
- Date: Thu, 25 Sep 2025 12:39:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.903668
- Title: UniTransfer: Video Concept Transfer via Progressive Spatial and Timestep Decomposition
- Title(参考訳): UniTransfer: プログレッシブな空間とタイムステップの分解によるビデオコンセプトの転送
- Authors: Guojun Lei, Rong Zhang, Chi Wang, Tianhang Liu, Hong Li, Zhiyuan Ma, Weiwei Xu,
- Abstract要約: 高精度かつ制御可能なビデオコンセプトトランスファーを実現するための新しいアーキテクチャUniTransferを提案する。
空間分解の観点では、ビデオは主題、背景、動きの流れの3つの重要な構成要素に分離する。
また、ビデオ内の異なるコンポーネントのきめ細かな制御をサポートするために、デュアル・ツー・シングル・ストリームのDiTベースのアーキテクチャも導入する。
- 参考スコア(独自算出の注目度): 27.259262849397913
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We propose a novel architecture UniTransfer, which introduces both spatial and diffusion timestep decomposition in a progressive paradigm, achieving precise and controllable video concept transfer. Specifically, in terms of spatial decomposition, we decouple videos into three key components: the foreground subject, the background, and the motion flow. Building upon this decomposed formulation, we further introduce a dual-to-single-stream DiT-based architecture for supporting fine-grained control over different components in the videos. We also introduce a self-supervised pretraining strategy based on random masking to enhance the decomposed representation learning from large-scale unlabeled video data. Inspired by the Chain-of-Thought reasoning paradigm, we further revisit the denoising diffusion process and propose a Chain-of-Prompt (CoP) mechanism to achieve the timestep decomposition. We decompose the denoising process into three stages of different granularity and leverage large language models (LLMs) for stage-specific instructions to guide the generation progressively. We also curate an animal-centric video dataset called OpenAnimal to facilitate the advancement and benchmarking of research in video concept transfer. Extensive experiments demonstrate that our method achieves high-quality and controllable video concept transfer across diverse reference images and scenes, surpassing existing baselines in both visual fidelity and editability. Web Page: https://yu-shaonian.github.io/UniTransfer-Web/
- Abstract(参考訳): プログレッシブパラダイムで空間時間と拡散時間の両方を分解し,高精度かつ制御可能なビデオコンセプト転送を実現する新しいアーキテクチャであるUniTransferを提案する。
具体的には、空間的分解の観点から、ビデオは前景の主題、背景、動きの流れの3つの重要な構成要素に分離する。
この分解された定式化に基づいて、ビデオ内の異なるコンポーネントのきめ細かい制御をサポートするために、さらに2重から1重のDiTベースのアーキテクチャを導入する。
また、ランダムマスキングに基づく自己教師型事前学習戦略を導入し、大規模未ラベルビデオデータからの分解表現学習を強化する。
本研究は,Chain-of-Thought推論のパラダイムに着想を得て,デノナイズ拡散過程を再考し,時間ステップ分解を実現するためのChain-of-Prompt(CoP)機構を提案する。
分解過程を粒度の異なる3段階に分解し,ステージ固有の命令に大規模言語モデル(LLM)を活用し,段階的に生成を誘導する。
また、動物中心のビデオデータセットOpenAnimalをキュレートして、ビデオコンセプト転送の研究の進展とベンチマークを容易にする。
広汎な実験により,様々な参照画像やシーンにまたがる高品質かつ制御可能なビデオコンセプトの転送が,視覚的忠実度と編集性の両方において,既存のベースラインを超えていることが示された。
Webページ:https://yu-shaonian.github.io/UniTransfer-Web/
関連論文リスト
- Tora2: Motion and Appearance Customized Diffusion Transformer for Multi-Entity Video Generation [8.108805590363392]
Toraはモーション誘導ビデオ生成のための拡散トランスフォーマーモデルである。
Tora2は、外観とモーションのカスタマイズの両方で機能を拡張するために、いくつかの設計改善を導入した。
Tora2は、ビデオ生成のための外観と動きの同時多目的カスタマイズを実現するための最初の方法である。
論文 参考訳(メタデータ) (2025-07-08T13:11:40Z) - MambaVideo for Discrete Video Tokenization with Channel-Split Quantization [34.23941517563312]
本研究は,2つの重要なコントリビューションを持つ最先端の離散ビデオトークンを導入している。
まず,従来のシーケンスベースのトークン化器の限界を克服する,新しいMambaベースのエンコーダデコーダアーキテクチャを提案する。
第二に、新しい量子化方式、チャネル分割量子化を導入し、量子化潜在体の表現力を大幅に向上させる。
論文 参考訳(メタデータ) (2025-07-06T22:23:27Z) - OmniVCus: Feedforward Subject-driven Video Customization with Multimodal Control Conditions [96.31455979495398]
本研究では、画像編集データを用いた画像-動画移動混合(IVTM)訓練を開発し、カスタマイズされたビデオにおける被写体に対するインストラクティブな編集を可能にする。
また,2つの埋め込み機構を持つ拡散トランスフォーマーフレームワークであるOmniVCusを提案し,Luttery Embedding (LE) とTemporally Aligned Embedding (TAE) を提案する。
本手法は定量評価と定性評価の両方において最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2025-06-29T18:43:00Z) - UniVST: A Unified Framework for Training-free Localized Video Style Transfer [102.52552893495475]
本稿では拡散モデルに基づく局所化ビデオスタイル転送のための統一フレームワークUniVSTを提案する。
トレーニングを必要とせずに動作し、ビデオ全体にわたってスタイルを転送する既存の拡散方法に対して、明確なアドバンテージを提供する。
論文 参考訳(メタデータ) (2024-10-26T05:28:02Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Training-Free Semantic Video Composition via Pre-trained Diffusion Model [96.0168609879295]
現在のアプローチは、主に前景の色と照明を調整したビデオで訓練されており、表面的な調整以上の深い意味の相違に対処するのに苦労している。
本研究では,事前知識を付加した事前学習拡散モデルを用いた学習自由パイプラインを提案する。
実験の結果,我々のパイプラインは出力の視覚的調和とフレーム間のコヒーレンスを確実にすることがわかった。
論文 参考訳(メタデータ) (2024-01-17T13:07:22Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z) - Unsupervised Video Domain Adaptation for Action Recognition: A
Disentanglement Perspective [37.45565756522847]
我々は2つの潜在要因からドメイン間ビデオを生成することを検討する。
TranSVAEフレームワークはそのような世代をモデル化するために開発される。
UCF-HMDB、Jester、Epic-Kitchensデータセットの実験は、TranSVAEの有効性と優位性を検証する。
論文 参考訳(メタデータ) (2022-08-15T17:59:31Z) - Deep Video Prior for Video Consistency and Propagation [58.250209011891904]
視覚的ビデオの時間的整合性に対する新規で一般的なアプローチを提案する。
提案手法は,大規模なデータセットではなく,オリジナルビデオとプロセッシングビデオのペアでのみ訓練される。
我々は、Deep Video Priorでビデオ上で畳み込みニューラルネットワークをトレーニングすることで、時間的一貫性を実現することができることを示す。
論文 参考訳(メタデータ) (2022-01-27T16:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。