論文の概要: MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
- arxiv url: http://arxiv.org/abs/2503.14428v1
- Date: Tue, 18 Mar 2025 17:02:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:17:34.978514
- Title: MagicComp: Training-free Dual-Phase Refinement for Compositional Video Generation
- Title(参考訳): MagicComp: 合成ビデオ生成のためのトレーニング不要デュアルポーズリファインメント
- Authors: Hongyu Zhang, Yufan Deng, Shenghai Yuan, Peng Jin, Zesen Cheng, Yian Zhao, Chang Liu, Jie Chen,
- Abstract要約: MagicCompは、T2V生成を2相精製により強化するトレーニングフリーの手法である。
MagicCompはモデルに依存しない汎用的なアプローチであり、既存のT2Vアーキテクチャにシームレスに統合することができる。
- 参考スコア(独自算出の注目度): 19.340437669928814
- License:
- Abstract: Text-to-video (T2V) generation has made significant strides with diffusion models. However, existing methods still struggle with accurately binding attributes, determining spatial relationships, and capturing complex action interactions between multiple subjects. To address these limitations, we propose MagicComp, a training-free method that enhances compositional T2V generation through dual-phase refinement. Specifically, (1) During the Conditioning Stage: We introduce the Semantic Anchor Disambiguation to reinforces subject-specific semantics and resolve inter-subject ambiguity by progressively injecting the directional vectors of semantic anchors into original text embedding; (2) During the Denoising Stage: We propose Dynamic Layout Fusion Attention, which integrates grounding priors and model-adaptive spatial perception to flexibly bind subjects to their spatiotemporal regions through masked attention modulation. Furthermore, MagicComp is a model-agnostic and versatile approach, which can be seamlessly integrated into existing T2V architectures. Extensive experiments on T2V-CompBench and VBench demonstrate that MagicComp outperforms state-of-the-art methods, highlighting its potential for applications such as complex prompt-based and trajectory-controllable video generation. Project page: https://hong-yu-zhang.github.io/MagicComp-Page/.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は拡散モデルにおいて大きな進歩を遂げた。
しかし、既存の手法は属性の正確な結合、空間的関係の決定、複数の被験者間の複雑な相互作用の取得に苦慮している。
これらの制約に対処するため、二相精製による合成T2V生成を向上させるトレーニング不要なMagicCompを提案する。
具体的には,(1)条件付け段階において,意味的アンカーの方向ベクトルを原文埋め込みに段階的に注入することにより,主題固有の意味論を強化し,対象間のあいまいさを解消するためにセマンティックアンカーの曖昧さを導入する。(2)デノナイジング段階において,我々は,先行点とモデル適応型空間知覚を統合して,マスキングアテンション変調により被験者を時空間領域に柔軟に結合させる動的レイアウト融合注意を提案する。
さらに、MagicCompはモデルに依存しない汎用的なアプローチであり、既存のT2Vアーキテクチャにシームレスに統合することができる。
T2V-CompBenchとVBenchの大規模な実験では、MagicCompは最先端の手法よりも優れており、複雑なプロンプトベースや軌道制御可能なビデオ生成のような応用の可能性を強調している。
プロジェクトページ:https://hong-yu-zhang.github.io/MagicComp-Page/。
関連論文リスト
- Enhancing Low-Cost Video Editing with Lightweight Adaptors and Temporal-Aware Inversion [20.308013151046616]
本稿では,時間空間的・意味的一貫性をBaliteral DDIMインバージョンと統合するフレームワークを提案する。
MSR-VTTデータセットで示すように,本手法は知覚品質,テキスト画像アライメント,時間的コヒーレンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-01-08T16:41:31Z) - VideoLights: Feature Refinement and Cross-Task Alignment Transformer for Joint Video Highlight Detection and Moment Retrieval [8.908777234657046]
大規模言語モデルと視覚言語モデル(LLM/LVLM)は、様々な領域で広く普及している。
ここでは、(i)Convolutional ProjectionとFeature Refinementモジュールを通してこれらの制限に対処する新しいHD/MRフレームワークであるVideoLightsを提案する。
QVHighlights、TVSum、Charades-STAベンチマークに関する総合的な実験は、最先端のパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-02T14:45:53Z) - StarVid: Enhancing Semantic Alignment in Video Diffusion Models via Spatial and SynTactic Guided Attention Refocusing [40.50917266880829]
我々は,T2Vモデルにおける複数の被験者間のセマンティックアライメント,動作,テキストプロンプトを改善するための,プラグイン・アンド・プレイ方式であるtextbfStarVidを提案する。
StarVidはまず、テキストプロンプトに基づく2段階の運動軌跡計画に大規模言語モデル(LLM)の空間的推論機能を利用する。
論文 参考訳(メタデータ) (2024-09-23T17:56:03Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - VideoTetris: Towards Compositional Text-to-Video Generation [45.395598467837374]
VideoTetrisは、合成T2V生成を可能にするフレームワークである。
我々は, VideoTetrisがT2V生成において, 印象的な質的, 定量的な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-06-06T17:25:33Z) - Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation [49.298187741014345]
テクスト・ツー・ビデオ生成(T2V)の複雑さの増大につながる空間的内容と時間的ダイナミクスを相互に結合する現在の方法
ビデオの空間的要因と時間的要因を2つの視点から分離することで性能を向上する拡散モデルに基づくHiGenを提案する。
論文 参考訳(メタデータ) (2023-12-07T17:59:07Z) - Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。
既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。
テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文 参考訳(メタデータ) (2023-06-24T10:44:02Z) - TTVFI: Learning Trajectory-Aware Transformer for Video Frame
Interpolation [50.49396123016185]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。
ビデオフレーム補間用トラジェクトリ対応トランス (TTVFI) を提案する。
提案手法は,4つの広く使用されているVFIベンチマークにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2022-07-19T03:37:49Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。