論文の概要: Compositional Video Synthesis by Temporal Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2507.20855v1
- Date: Mon, 28 Jul 2025 14:11:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.149317
- Title: Compositional Video Synthesis by Temporal Object-Centric Learning
- Title(参考訳): 時間的物体中心学習による合成ビデオ合成
- Authors: Adil Kaan Akan, Yucel Yemez,
- Abstract要約: 本稿では、時間的に一貫したオブジェクト中心表現を利用する合成ビデオ合成のための新しいフレームワークを提案する。
提案手法は, 物体中心スロットの変動を学習し, 事前学習した拡散モデルに条件付けすることによって, 時間的ダイナミクスを明示的に捉える。
この設計により、時間コヒーレンスに優れた高品質の画素レベルのビデオ合成が可能となる。
- 参考スコア(独自算出の注目度): 3.2228025627337864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel framework for compositional video synthesis that leverages temporally consistent object-centric representations, extending our previous work, SlotAdapt, from images to video. While existing object-centric approaches either lack generative capabilities entirely or treat video sequences holistically, thus neglecting explicit object-level structure, our approach explicitly captures temporal dynamics by learning pose invariant object-centric slots and conditioning them on pretrained diffusion models. This design enables high-quality, pixel-level video synthesis with superior temporal coherence, and offers intuitive compositional editing capabilities such as object insertion, deletion, or replacement, maintaining consistent object identities across frames. Extensive experiments demonstrate that our method sets new benchmarks in video generation quality and temporal consistency, outperforming previous object-centric generative methods. Although our segmentation performance closely matches state-of-the-art methods, our approach uniquely integrates this capability with robust generative performance, significantly advancing interactive and controllable video generation and opening new possibilities for advanced content creation, semantic editing, and dynamic scene understanding.
- Abstract(参考訳): 本稿では、時間的に一貫したオブジェクト中心表現を活用し、以前の作品であるSlotAdaptを画像からビデオへ拡張する合成ビデオ合成のための新しいフレームワークを提案する。
既存のオブジェクト中心アプローチは、生成能力を完全に欠くか、ビデオシーケンスを一様に扱うか、明示的なオブジェクトレベル構造を無視するかのいずれかであるが、我々のアプローチは、不変なオブジェクト中心スロットのポーズを学習し、事前訓練された拡散モデルでそれらを条件付けることによって、時間的ダイナミクスを明示的に捉えている。
この設計により、高画質の画素レベルのビデオ合成が可能で、時間的コヒーレンスに優れ、オブジェクト挿入、削除、置換などの直感的な構成編集機能を提供し、フレーム間の一貫性のあるオブジェクトIDを維持することができる。
大規模な実験により,本手法はビデオ生成品質と時間的一貫性のベンチマークを新たに設定し,従来のオブジェクト中心生成手法よりも優れていた。
我々のセグメンテーション性能は最先端の手法と密接に一致しているが、我々はこの能力を堅牢な生成性能と一意に統合し、インタラクティブで制御可能なビデオ生成を著しく前進させ、高度なコンテンツ作成、セマンティック編集、動的シーン理解のための新たな可能性を開く。
関連論文リスト
- RepVideo: Rethinking Cross-Layer Representation for Video Generation [53.701548524818534]
テキスト・ビデオ拡散モデルのための拡張表現フレームワークであるRepVideoを提案する。
近隣層からの機能を蓄積してリッチな表現を形成することで、このアプローチはより安定したセマンティック情報をキャプチャする。
我々の実験は、RepVideoが正確な空間的外観を生成する能力を著しく向上するだけでなく、ビデオ生成における時間的一貫性も向上することを示した。
論文 参考訳(メタデータ) (2025-01-15T18:20:37Z) - Multi-object Video Generation from Single Frame Layouts [84.55806837855846]
本研究では,グローバルシーンを局所オブジェクトに合成するビデオ生成フレームワークを提案する。
我々のフレームワークは、画像生成手法からの非自明な適応であり、この分野では新しくなっています。
本モデルは広範に使用されている2つのビデオ認識ベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-05-06T09:07:01Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。