論文の概要: VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
- arxiv url: http://arxiv.org/abs/2502.17258v1
- Date: Mon, 24 Feb 2025 15:39:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:53:53.678136
- Title: VideoGrain: Modulating Space-Time Attention for Multi-grained Video Editing
- Title(参考訳): VideoGrain:マルチグラデーションビデオ編集のための空間時間アテンションの調整
- Authors: Xiangpeng Yang, Linchao Zhu, Hehe Fan, Yi Yang,
- Abstract要約: VideoGrainは、ビデオコンテンツの細かい制御を実現するために、時空を変調するゼロショット方式である。
我々は、各局所的なプロンプトの注意を対応する空間距離領域に増幅することにより、テキスト・ツー・リージョン制御を強化する。
我々は、地域内意識を高め、自己注意における地域間干渉を減らすことで特徴分離を改善する。
- 参考スコア(独自算出の注目度): 62.15822650722473
- License:
- Abstract: Recent advancements in diffusion models have significantly improved video generation and editing capabilities. However, multi-grained video editing, which encompasses class-level, instance-level, and part-level modifications, remains a formidable challenge. The major difficulties in multi-grained editing include semantic misalignment of text-to-region control and feature coupling within the diffusion model. To address these difficulties, we present VideoGrain, a zero-shot approach that modulates space-time (cross- and self-) attention mechanisms to achieve fine-grained control over video content. We enhance text-to-region control by amplifying each local prompt's attention to its corresponding spatial-disentangled region while minimizing interactions with irrelevant areas in cross-attention. Additionally, we improve feature separation by increasing intra-region awareness and reducing inter-region interference in self-attention. Extensive experiments demonstrate our method achieves state-of-the-art performance in real-world scenarios. Our code, data, and demos are available at https://knightyxp.github.io/VideoGrain_project_page/
- Abstract(参考訳): 拡散モデルの最近の進歩は、ビデオ生成と編集機能を大幅に改善した。
しかし、クラスレベル、インスタンスレベル、および部分レベルの修正を含むマルチグラデーションビデオ編集は、依然として深刻な課題である。
多粒度編集の大きな問題は、テキスト・ツー・リージョン制御のセマンティックなミスアライメントと拡散モデルにおける特徴結合である。
このような問題に対処するため,ビデオコンテンツの微粒化制御を実現するため,時空(クロス・セルフ)アテンション機構を変調するゼロショット方式のVideoGrainを提案する。
我々は,各局所的なプロンプトの注意を対応する空間交叉領域に増幅し,無関係領域との相互作用を最小化することにより,テキスト・ツー・リージョン制御を強化した。
さらに,地域内意識を高め,自己注意における地域間干渉を減らすことにより,特徴分離を改善する。
大規模実験により実世界のシナリオにおける最先端の性能を実証した。
私たちのコード、データ、デモはhttps://knightyxp.github.io/VideoGrain_project_page/で公開されています。
関連論文リスト
- MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。
対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。
RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文 参考訳(メタデータ) (2024-12-16T12:32:21Z) - A dual contrastive framework [7.358205057611624]
地域レベルの視覚理解は、大規模視覚言語モデルにとって大きな課題となる。
潜在空間のきめ細かいアライメントによる領域レベルの理解を高めるためのフレームワークであるAlignCapを提案する。
論文 参考訳(メタデータ) (2024-12-13T18:45:18Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - Multi-scale 2D Temporal Map Diffusion Models for Natural Language Video
Localization [85.85582751254785]
この問題に対処するための新しいアプローチをNLVLに提示する。
本手法は, 条件付きデノナイジング拡散プロセスによるグローバル2次元時間マップの直接生成を含む。
提案手法は,クエリとビデオデータの相互作用を様々な時間スケールで効果的にカプセル化する。
論文 参考訳(メタデータ) (2024-01-16T09:33:29Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Video Region Annotation with Sparse Bounding Boxes [29.323784279321337]
対象領域の少ない注釈付き境界ボックスから、ビデオのすべてのフレームの領域境界を自動的に生成することを学ぶ。
本稿では,領域境界上のキーポイントを反復的に見つけることを学習するVGCN(Volumetric Graph Convolutional Network)を用いてこれを実現している。
論文 参考訳(メタデータ) (2020-08-17T01:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。