論文の概要: Edit-Your-Interest: Efficient Video Editing via Feature Most-Similar Propagation
- arxiv url: http://arxiv.org/abs/2510.13084v1
- Date: Wed, 15 Oct 2025 01:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.471217
- Title: Edit-Your-Interest: Efficient Video Editing via Feature Most-Similar Propagation
- Title(参考訳): 編集-Your-Interest:Feature Most-Similar Propagationによる効率的なビデオ編集
- Authors: Yi Zuo, Zitao Wang, Lingling Li, Xu Liu, Fang Liu, Licheng Jiao,
- Abstract要約: Edit-Your-Interestはテキスト駆動のゼロショットビデオ編集手法である。
フルシーケンス・テンポラル・モデリング手法に比べて計算オーバーヘッドを低減させる。
効率性と視覚的忠実性の両方において最先端の手法よりも優れています。
- 参考スコア(独自算出の注目度): 53.05471174430247
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) diffusion models have recently demonstrated significant progress in video editing. However, existing video editing methods are severely limited by their high computational overhead and memory consumption. Furthermore, these approaches often sacrifice visual fidelity, leading to undesirable temporal inconsistencies and artifacts such as blurring and pronounced mosaic-like patterns. We propose Edit-Your-Interest, a lightweight, text-driven, zero-shot video editing method. Edit-Your-Interest introduces a spatio-temporal feature memory to cache features from previous frames, significantly reducing computational overhead compared to full-sequence spatio-temporal modeling approaches. Specifically, we first introduce a Spatio-Temporal Feature Memory bank (SFM), which is designed to efficiently cache and retain the crucial image tokens processed by spatial attention. Second, we propose the Feature Most-Similar Propagation (FMP) method. FMP propagates the most relevant tokens from previous frames to subsequent ones, preserving temporal consistency. Finally, we introduce an SFM update algorithm that continuously refreshes the cached features, ensuring their long-term relevance and effectiveness throughout the video sequence. Furthermore, we leverage cross-attention maps to automatically extract masks for the instances of interest. These masks are seamlessly integrated into the diffusion denoising process, enabling fine-grained control over target objects and allowing Edit-Your-Interest to perform highly accurate edits while robustly preserving the background integrity. Extensive experiments decisively demonstrate that the proposed Edit-Your-Interest outperforms state-of-the-art methods in both efficiency and visual fidelity, validating its superior effectiveness and practicality.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルは近年,映像編集において顕著な進歩を見せている。
しかし、既存のビデオ編集手法は、高い計算オーバーヘッドとメモリ消費によって著しく制限されている。
さらに、これらのアプローチはしばしば視覚的忠実さを犠牲にして、望ましくない時間的矛盾や、ぼやけやモザイク的なパターンのような人工物を生み出す。
本稿では,軽量でテキスト駆動型ゼロショットビデオ編集手法であるEdit-Your-Interestを提案する。
Edit-Your-Interestは、以前のフレームから機能をキャッシュするための時空間メモリを導入し、フルシーケンスの時空間モデリングアプローチに比べて計算オーバーヘッドを大幅に削減する。
具体的には,空間的注意によって処理される重要な画像トークンを効率よくキャッシュし,保持するための,時空間特徴記憶バンク(SFM)を導入する。
次に,FMP(Feature Most-Similar Propagation)法を提案する。
FMPは、過去のフレームからその後のトークンへ最も関連性の高いトークンを伝播し、時間的一貫性を保つ。
最後に、キャッシュされた機能を継続的に更新し、ビデオシーケンスを通してその長期的関連性と有効性を保証するSFM更新アルゴリズムを導入する。
さらに、関心のある場合のマスクを自動的に抽出するために、クロスアテンションマップを活用する。
これらのマスクは拡散復調プロセスにシームレスに統合され、ターゲットオブジェクトのきめ細かい制御が可能となり、Edit-Your-Interestは背景の完全性をしっかりと保ちながら、高度に正確な編集を行うことができる。
広範囲にわたる実験により,提案手法は効率と視覚的忠実性の両方において最先端の手法より優れており,その優れた効果と実用性が確認されている。
関連論文リスト
- MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing [22.876290778155514]
クロスアテンションマスクはビデオ編集に有効であるが、ぼやけや点滅などのアーティファクトを導入することができる。
本稿では,特定の映像編集作業に適した最適なマスクを選択する手法であるFreeMaskを提案する。
提案手法は,最先端手法と比較して,意味的忠実度,時間的整合性,品質の編集に優れる。
論文 参考訳(メタデータ) (2024-09-30T17:01:26Z) - Blended Latent Diffusion under Attention Control for Real-World Video Editing [5.659933808910005]
本稿では,局所的なビデオ編集作業を行うために,画像レベルのブレンド潜在拡散モデルを適用することを提案する。
具体的には、DDIMのインバージョンを利用して、ランダムにノイズのあるものではなく、背景の潜伏者として潜伏者を取得する。
また,拡散段階におけるクロスアテンションマップから導かれる自律マスク製造機構を導入する。
論文 参考訳(メタデータ) (2024-09-05T13:23:52Z) - COVE: Unleashing the Diffusion Feature Correspondence for Consistent Video Editing [57.76170824395532]
ビデオ編集は新たな課題であり、現在のほとんどの手法では、ソースビデオを編集するために、事前訓練されたテキスト・トゥ・イメージ(T2I)拡散モデルを採用している。
我々は,高品質で一貫したビデオ編集を実現するために,COVE(Cor correspondingence-guided Video Editing)を提案する。
COVEは、追加のトレーニングや最適化を必要とせずに、事前訓練されたT2I拡散モデルにシームレスに統合することができる。
論文 参考訳(メタデータ) (2024-06-13T06:27:13Z) - FastDrag: Manipulate Anything in One Step [20.494157877241665]
本稿では,FastDragというワンステップのドラッグベースの画像編集手法を導入し,編集プロセスの高速化を図る。
この革新は1段階の遅延セマンティック最適化を実現し、編集速度を大幅に向上させる。
私たちのFastDragはDragBenchデータセットで検証されています。
論文 参考訳(メタデータ) (2024-05-24T17:59:26Z) - MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers [30.924202893340087]
最先端のアプローチは主にこれらのタスクを達成するために拡散モデルに依存している。
本稿では,テキストベースのビデオ編集タスクを2段階に分割する。
まず、事前訓練されたテキスト・画像拡散モデルを用いて、ゼロショット方式で少数者を同時に編集する。
第2に,非自己回帰マスク生成変換器をベースとしたMaskINTという効率的なモデルを提案する。
論文 参考訳(メタデータ) (2023-12-19T07:05:39Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。