論文の概要: FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing
- arxiv url: http://arxiv.org/abs/2409.20500v1
- Date: Mon, 30 Sep 2024 17:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 05:36:48.582719
- Title: FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing
- Title(参考訳): FreeMask:ゼロショットビデオ編集における注意マスクの重要性を再考
- Authors: Lingling Cai, Kang Zhao, Hangjie Yuan, Yingya Zhang, Shiwei Zhang, Kejie Huang,
- Abstract要約: クロスアテンションマスクはビデオ編集に有効であるが、ぼやけや点滅などのアーティファクトを導入することができる。
本稿では,特定の映像編集作業に適した最適なマスクを選択する手法であるFreeMaskを提案する。
提案手法は,最先端手法と比較して,意味的忠実度,時間的整合性,品質の編集に優れる。
- 参考スコア(独自算出の注目度): 22.876290778155514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-video diffusion models have made remarkable advancements. Driven by their ability to generate temporally coherent videos, research on zero-shot video editing using these fundamental models has expanded rapidly. To enhance editing quality, structural controls are frequently employed in video editing. Among these techniques, cross-attention mask control stands out for its effectiveness and efficiency. However, when cross-attention masks are naively applied to video editing, they can introduce artifacts such as blurring and flickering. Our experiments uncover a critical factor overlooked in previous video editing research: cross-attention masks are not consistently clear but vary with model structure and denoising timestep. To address this issue, we propose the metric Mask Matching Cost (MMC) that quantifies this variability and propose FreeMask, a method for selecting optimal masks tailored to specific video editing tasks. Using MMC-selected masks, we further improve the masked fusion mechanism within comprehensive attention features, e.g., temp, cross, and self-attention modules. Our approach can be seamlessly integrated into existing zero-shot video editing frameworks with better performance, requiring no control assistance or parameter fine-tuning but enabling adaptive decoupling of unedited semantic layouts with mask precision control. Extensive experiments demonstrate that FreeMask achieves superior semantic fidelity, temporal consistency, and editing quality compared to state-of-the-art methods.
- Abstract(参考訳): テキストとビデオの拡散モデルは目覚ましい進歩を遂げた。
時間的コヒーレントなビデオを生成する能力によって、これらの基本モデルを用いたゼロショットビデオ編集の研究は急速に拡大している。
編集品質を向上させるため、ビデオ編集において構造制御が頻繁に用いられる。
これらの技術の中で、クロスアテンションマスクコントロールは、その有効性と効率性において際立っている。
しかし、動画編集にクロスアテンションマスクを鼻で応用する場合、ぼやけたり、ひらめいたりといったアーティファクトを導入することができる。
過去のビデオ編集研究で見過ごされた重要な要因が明らかになった: クロスアテンションマスクは一貫して明確ではないが、モデル構造やデノベーションタイムステップによって異なる。
この問題に対処するために,この変数を定量化する計量マスクマッチングコスト(MMC)を提案し,特定のビデオ編集タスクに適した最適マスクを選択する手法であるFreeMaskを提案する。
MMC選択マスクを用いて、注意機能(例えば、テンポ、クロス、自己注意モジュール)において、マスク融合機構をさらに改善する。
提案手法は既存のゼロショットビデオ編集フレームワークにシームレスに統合することができ、制御補助やパラメータの微調整は不要であるが、マスク精度制御による未編集セマンティックレイアウトの適応的デカップリングが可能となる。
大規模な実験により、FreeMaskは最先端の手法と比較して、セマンティックな忠実さ、時間的一貫性、編集品質が優れていることが示された。
関連論文リスト
- Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - Text-Guided Video Masked Autoencoder [12.321239366215426]
本稿では,ペア字幕に高い対応で映像領域をマスキングする新しいテキスト誘導マスキングアルゴリズム(TGM)を提案する。
既存のマスキングアルゴリズム、統一MAE、マスキングビデオテキストコントラスト学習により、純粋なMAEと比較して下流性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-01T17:58:19Z) - Towards Efficient Diffusion-Based Image Editing with Instant Attention
Masks [43.079272743475435]
本稿では、インスタント拡散編集(InstDiffEdit)と呼ばれるテキスト・ツー・イメージ(T2I)拡散モデルの新規で効率的な画像編集手法を提案する。
特に、InstDiffEditは、既存の拡散モデルのクロスモーダルな注意力を活用して、拡散ステップ中に即時マスクガイダンスを実現することを目的としている。
DIEの既存の評価を補うため、既存の手法のマスク精度と局所的な編集能力を調べるためのEditing-Maskと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-01-15T14:25:54Z) - MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers [30.924202893340087]
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本稿では,テキストベースのビデオ編集タスクを2段階に分割する。
まず、事前訓練されたテキスト・画像拡散モデルを用いて、ゼロショット方式で少数者を同時に編集する。
第2に,非自己回帰マスク生成変換器をベースとしたMaskINTという効率的なモデルを提案する。
論文 参考訳(メタデータ) (2023-12-19T07:05:39Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - MagicProp: Diffusion-based Video Editing via Motion-aware Appearance
Propagation [74.32046206403177]
MagicPropは、ビデオ編集プロセスを、外観編集とモーション対応の外観伝搬という2つのステージに分割する。
第一段階では、MagicPropは入力ビデオから単一のフレームを選択し、フレームの内容やスタイルを変更するために画像編集技術を適用する。
第2段階では、MagicPropは編集されたフレームを外観参照として使用し、自動回帰レンダリングアプローチを使用して残りのフレームを生成する。
論文 参考訳(メタデータ) (2023-09-02T11:13:29Z) - MGMAE: Motion Guided Masking for Video Masked Autoencoding [34.80832206608387]
時間的冗長性は、ビデオMAEのマスキング比が高く、マスキング戦略をカスタマイズしている。
我々の動き誘導マスクは、時間的一貫したマスキングボリュームを構築するために、運動情報を明示的に組み込む。
我々は、Something V2 と Kinetics-400 のデータセット上で実験を行い、MGMAE が元の VideoMAE よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-21T15:39:41Z) - Siamese Masked Autoencoders [76.35448665609998]
ビデオから視覚的対応を学習するために,Siamese Masked Autoencoders(SiamMAE)を提案する。
SiamMAEはランダムにサンプリングされたビデオフレームのペアで動作し、非対称にそれらをマスクする。
ビデオオブジェクトのセグメンテーション、キーポイントのプロパゲーション、セマンティック部分のプロパゲーションタスクにおいて、最先端の自己管理手法よりも優れています。
論文 参考訳(メタデータ) (2023-05-23T17:59:46Z) - Mask-Free Video Instance Segmentation [102.50936366583106]
ビデオマスクは面倒で高価なアノテーションで、既存のVISデータセットのスケールと多様性を制限している。
我々は、オブジェクト状態のバウンディングボックスアノテーションのみを使用しながら、非常に競争力のあるVIS性能を実現するMaskFreeVISを提案する。
我々のTK-Lossは、効率的なパッチマッチングステップを経て、フレーム間の一対多のマッチを見つけ、続いてK-アネレスの隣り合う選択を行う。
論文 参考訳(メタデータ) (2023-03-28T11:48:07Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Edit-A-Video: Single Video Editing with Object-Aware Consistency [49.43316939996227]
本稿では,事前訓練されたTTIモデルと単一のテキスト,ビデオ>ペアのみを付与したビデオ編集フレームワークを提案する。
本フレームワークは,(1)時間モジュールチューニングを付加して2Dモデルを3Dモデルに膨らませること,(2)原動画をノイズに反転させ,対象のテキストプロンプトとアテンションマップインジェクションで編集すること,の2段階からなる。
各種のテキスト・ビデオに対して広範な実験結果を示し,背景整合性,テキストアライメント,ビデオ編集品質の点で,ベースラインに比べて提案手法の優位性を示す。
論文 参考訳(メタデータ) (2023-03-14T14:35:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。