論文の概要: SSG-Dit: A Spatial Signal Guided Framework for Controllable Video Generation
- arxiv url: http://arxiv.org/abs/2508.17062v1
- Date: Sat, 23 Aug 2025 15:30:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.320576
- Title: SSG-Dit: A Spatial Signal Guided Framework for Controllable Video Generation
- Title(参考訳): SSG-Dit:制御可能な映像生成のための空間信号案内フレームワーク
- Authors: Peng Hu, Yu Gu, Liang Luo, Fuji Ren,
- Abstract要約: 制御可能なビデオ生成は、ユーザが提供する条件と正確に整合したビデオコンテンツを合成することを目的としている。
既存のモデルは、しばしば強いセマンティック一貫性を維持するのに苦労する。
本稿では,高忠実度制御可能なビデオ生成のための新しい,効率的なフレームワークであるSSG-DiTを提案する。
- 参考スコア(独自算出の注目度): 22.1310564466224
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable video generation aims to synthesize video content that aligns precisely with user-provided conditions, such as text descriptions and initial images. However, a significant challenge persists in this domain: existing models often struggle to maintain strong semantic consistency, frequently generating videos that deviate from the nuanced details specified in the prompts. To address this issue, we propose SSG-DiT (Spatial Signal Guided Diffusion Transformer), a novel and efficient framework for high-fidelity controllable video generation. Our approach introduces a decoupled two-stage process. The first stage, Spatial Signal Prompting, generates a spatially aware visual prompt by leveraging the rich internal representations of a pre-trained multi-modal model. This prompt, combined with the original text, forms a joint condition that is then injected into a frozen video DiT backbone via our lightweight and parameter-efficient SSG-Adapter. This unique design, featuring a dual-branch attention mechanism, allows the model to simultaneously harness its powerful generative priors while being precisely steered by external spatial signals. Extensive experiments demonstrate that SSG-DiT achieves state-of-the-art performance, outperforming existing models on multiple key metrics in the VBench benchmark, particularly in spatial relationship control and overall consistency.
- Abstract(参考訳): 制御可能なビデオ生成は、テキスト記述や初期画像などのユーザが提供する条件と正確に一致したビデオコンテンツを合成することを目的としている。
既存のモデルは、しばしば強力なセマンティック一貫性を維持するのに苦労し、プロンプトで指定されたニュアンスの詳細から逸脱したビデオを生成する。
この問題に対処するために, SSG-DiT (Spatial Signal Guided Diffusion Transformer) を提案する。
このアプローチでは、分離された2段階のプロセスを導入します。
第1段階であるSpatial Signal Promptingは、事前訓練されたマルチモーダルモデルのリッチな内部表現を活用することにより、空間的に認識された視覚的プロンプトを生成する。
このプロンプトと元のテキストが組み合わさってジョイント条件を形成し、軽量でパラメータ効率のよいSSG-Adapterを介して凍結ビデオDiTバックボーンに注入されます。
このユニークな設計は、デュアルブランチのアテンション機構を備えており、モデルが外部空間信号によって正確に制御されながら、その強力な生成前兆を同時に活用することができる。
SSG-DiTは、特に空間的関係制御と全体的な整合性において、VBenchベンチマークにおいて、複数の主要な指標における既存のモデルよりも優れた、最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - DiVE: DiT-based Video Generation with Enhanced Control [23.63288169762629]
時間的・多視点的な一貫したビデオを生成するために特別に設計された第1のDiTベースのフレームワークを提案する。
具体的には、パラメータフリーな空間ビューインフレードアテンション機構を利用して、クロスビューの一貫性を保証する。
論文 参考訳(メタデータ) (2024-09-03T04:29:59Z) - Enhancing Video-Language Representations with Structural Spatio-Temporal Alignment [130.15775113897553]
フィンスタは微細な構造的時間的アライメント学習法である。
既存の13の強化されたビデオ言語モデルも一貫して改善されている。
論文 参考訳(メタデータ) (2024-06-27T15:23:36Z) - SparseCtrl: Adding Sparse Controls to Text-to-Video Diffusion Models [84.71887272654865]
SparseCtrlは時間的にスパース信号で柔軟な構造制御を可能にする。
トレーニング済みのT2Vモデルに触ることなく、これらのスパース信号を処理するための追加条件が組み込まれている。
提案手法はスケッチ,深度マップ,RGB画像など,さまざまなモダリティと互換性がある。
論文 参考訳(メタデータ) (2023-11-28T16:33:08Z) - Control-A-Video: Controllable Text-to-Video Diffusion Models with Motion Prior and Reward Feedback Learning [50.60891619269651]
Control-A-Videoは制御可能なT2V拡散モデルであり、テキストプロンプトやエッジや奥行きマップのような参照制御マップに条件付のビデオを生成することができる。
本稿では,拡散に基づく生成プロセスに,コンテンツの事前と動作を組み込む新しい手法を提案する。
我々のフレームワークは、制御可能なテキスト・ツー・ビデオ生成における既存の最先端手法と比較して、高品質で一貫性のあるビデオを生成する。
論文 参考訳(メタデータ) (2023-05-23T09:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。