論文の概要: DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation
- arxiv url: http://arxiv.org/abs/2602.13637v1
- Date: Sat, 14 Feb 2026 07:02:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.246063
- Title: DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation
- Title(参考訳): DCDM: Consistency-Preserving Video Generationのための分数拡散モデル
- Authors: Haoyu Zhao, Yuang Zhang, Junqi Cheng, Jiaxi Gu, Zenghui Lu, Peng Shu, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: 我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
- 参考スコア(独自算出の注目度): 77.89090846233906
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent video generative models have demonstrated impressive visual fidelity, yet they often struggle with semantic, geometric, and identity consistency. In this paper, we propose a system-level framework, termed the Divide-and-Conquer Diffusion Model (DCDM), to address three key challenges: (1) intra-clip world knowledge consistency, (2) inter-clip camera consistency, and (3) inter-shot element consistency. DCDM decomposes video consistency modeling under these scenarios into three dedicated components while sharing a unified video generation backbone. For intra-clip consistency, DCDM leverages a large language model to parse input prompts into structured semantic representations, which are subsequently translated into coherent video content by a diffusion transformer. For inter-clip camera consistency, we propose a temporal camera representation in the noise space that enables precise and stable camera motion control, along with a text-to-image initialization mechanism to further enhance controllability. For inter-shot consistency, DCDM adopts a holistic scene generation paradigm with windowed cross-attention and sparse inter-shot self-attention, ensuring long-range narrative coherence while maintaining computational efficiency. We validate our framework on the test set of the CVM Competition at AAAI'26, and the results demonstrate that the proposed strategies effectively address these challenges.
- Abstract(参考訳): 最近のビデオ生成モデルは印象的な視覚的忠実さを示しているが、意味的、幾何学的、アイデンティティの整合性に苦しむことが多い。
本稿では,(1)クリップ内知識の整合性,(2)クリップ間カメラの整合性,(3)ショット間要素の整合性,という3つの課題に対処するため,Divide-and-Conquer Diffusion Model(DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、これらのシナリオの下でビデオ一貫性モデリングを3つの専用コンポーネントに分解し、統合されたビデオ生成バックボーンを共有する。
クリック内一貫性のために、DCDMは大きな言語モデルを利用して入力プロンプトを構造化意味表現に解析し、その後拡散変換器によってコヒーレントなビデオコンテンツに変換する。
クリップ間カメラの整合性を確保するため,音場における時間的カメラ表現を提案し,高精度かつ安定したカメラモーション制御とテキスト・ツー・イメージの初期化機構により制御性をさらに向上させる。
ショット間一貫性のために、DCDMはウィンドウ付きクロスアテンションとスパースなショット間自己アテンションを備えた全体論的シーン生成パラダイムを採用し、計算効率を維持しながら長距離の物語コヒーレンスを確保する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
関連論文リスト
- SkyReels-V3 Technique Report [23.793804843416606]
ビデオの堅牢性は、コンテキスト推論が能力の定義テストである世界モデル構築の基盤となる。
拡散変換器を用いたマルチモーダル・イン・コンテクスト学習フレームワーク上に構築した条件付きビデオ生成モデルSkyReels-V3を提案する。
SkyReels-V3モデルは、イメージ・トゥ・ビデオ合成、ビデオ・ツー・ビデオ拡張、オーディオ誘導ビデオ生成という、3つのコア生成パラダイムを単一のアーキテクチャでサポートする。
論文 参考訳(メタデータ) (2026-01-24T06:08:12Z) - UniMo: Unifying 2D Video and 3D Human Motion with an Autoregressive Framework [54.337290937468175]
統合された枠組み内での2次元映像と3次元映像の協調モデリングのための自己回帰モデルUniMoを提案する。
本手法は,正確なモーションキャプチャを行いながら,対応する映像と動きを同時に生成することを示す。
論文 参考訳(メタデータ) (2025-12-03T16:03:18Z) - Zero-Shot Video Translation and Editing with Frame Spatial-Temporal Correspondence [81.82643953694485]
フレーム内対応とフレーム間対応を統合し,より堅牢な時空間制約を定式化するFRESCOを提案する。
提案手法は注意誘導を超越して特徴を明示的に最適化し,入力ビデオとの空間的整合性を実現する。
動画翻訳とテキスト誘導ビデオ編集の2つのゼロショットタスクに対してFRESCO適応を検証する。
論文 参考訳(メタデータ) (2025-12-03T15:51:11Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - A Framework Combining 3D CNN and Transformer for Video-Based Behavior Recognition [0.0]
本稿では3D CNNとTransformerアーキテクチャを組み合わせたハイブリッドフレームワークを提案する。
3D CNNモジュールは低レベルの時間的特徴を抽出し、Transformerモジュールは長期の時間的依存関係をキャプチャする。
提案モデルは従来の3D CNNやスタンドアロンのトランスフォーマーよりも優れており、高い認識精度と管理可能な複雑さを実現している。
論文 参考訳(メタデータ) (2025-08-02T07:33:29Z) - Motion-Aware Concept Alignment for Consistent Video Editing [57.08108545219043]
MoCA-Video (Motion-Aware Concept Alignment in Video) は、画像ドメインのセマンティックミキシングとビデオのギャップを埋めるトレーニング不要のフレームワークである。
生成されたビデオとユーザが提供した参照画像が与えられた後、MoCA-Videoは参照画像のセマンティックな特徴をビデオ内の特定のオブジェクトに注入する。
我々は、標準SSIM、画像レベルLPIPS、時間LPIPSを用いてMoCAの性能を評価し、新しいメトリクスCASS(Conceptual Alignment Shift Score)を導入し、ソースプロンプトと修正ビデオフレーム間の視覚的シフトの一貫性と有効性を評価する。
論文 参考訳(メタデータ) (2025-06-01T13:28:04Z) - DiffusionSfM: Predicting Structure and Motion via Ray Origin and Endpoint Diffusion [53.70278210626701]
マルチビュー画像から3次元シーン形状とカメラポーズを直接推定するデータ駆動型マルチビュー推論手法を提案する。
我々のフレームワークであるDiffusionSfMは、シーン幾何学とカメラを、グローバルフレーム内のピクセルワイズ線源とエンドポイントとしてパラメータ化します。
我々は、DiffusionSfMを合成データセットと実データセットの両方で実証的に検証し、古典的および学習ベースのアプローチよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-05-08T17:59:47Z) - Enhanced Partially Relevant Video Retrieval through Inter- and Intra-Sample Analysis with Coherence Prediction [18.24629930062925]
部分的に関連のあるビデオ検索は、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - VideoFusion: A Spatio-Temporal Collaborative Network for Multi-modal Video Fusion and Restoration [26.59510171451438]
既存のマルチセンサー融合研究は、主にビデオではなく複数の画像からの補完を統合している。
VideoFusionは、時間的相補性と時間的ダイナミクスを利用して、文脈的時間的コヒーレントなビデオを生成する。
大規模な実験により、VideoFusionは、シーケンシャルなシナリオで既存の画像指向の融合パラダイムより優れていることが判明した。
論文 参考訳(メタデータ) (2025-03-30T08:27:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。