論文の概要: EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing
- arxiv url: http://arxiv.org/abs/2602.15031v1
- Date: Mon, 16 Feb 2026 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.654181
- Title: EditCtrl: Disentangled Local and Global Control for Real-Time Generative Video Editing
- Title(参考訳): EditCtrl: リアルタイムな生成ビデオ編集のための局所的およびグローバルな制御
- Authors: Yehonathan Litman, Shikun Liu, Dario Seyb, Nicholas Milef, Yang Zhou, Carl Marshall, Shubham Tulsiani, Caleb Leak,
- Abstract要約: EditCtrlは、必要な場所のみに焦点を当てた効率的なビデオインペイント制御フレームワークである。
提案手法では,マスク付きトークンのみで動作する新しいローカルビデオコンテキストモジュールを特徴とし,編集サイズに比例した計算コストを実現する。
EditCtrlは、最先端の生成編集手法の10倍の計算効率を持つだけでなく、フルアテンションで設計された方法に比べて、編集品質も向上している。
- 参考スコア(独自算出の注目度): 27.81890766457551
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: High-fidelity generative video editing has seen significant quality improvements by leveraging pre-trained video foundation models. However, their computational cost is a major bottleneck, as they are often designed to inefficiently process the full video context regardless of the inpainting mask's size, even for sparse, localized edits. In this paper, we introduce EditCtrl, an efficient video inpainting control framework that focuses computation only where it is needed. Our approach features a novel local video context module that operates solely on masked tokens, yielding a computational cost proportional to the edit size. This local-first generation is then guided by a lightweight temporal global context embedder that ensures video-wide context consistency with minimal overhead. Not only is EditCtrl 10 times more compute efficient than state-of-the-art generative editing methods, it even improves editing quality compared to methods designed with full-attention. Finally, we showcase how EditCtrl unlocks new capabilities, including multi-region editing with text prompts and autoregressive content propagation.
- Abstract(参考訳): 高忠実な生成ビデオ編集は、事前訓練されたビデオ基盤モデルを活用することにより、大幅な品質改善が達成されている。
しかし、その計算コストは大きなボトルネックであり、ローカライズされた編集であっても、塗装マスクのサイズに関わらず、フルビデオコンテキストを非効率に処理するようにしばしば設計されている。
本稿では,効率的な映像インペイント制御フレームワークであるEditCtrlを紹介する。
提案手法では,マスク付きトークンのみで動作する新しいローカルビデオコンテキストモジュールを特徴とし,編集サイズに比例した計算コストを実現する。
このローカルファースト世代は、最小限のオーバーヘッドでビデオ全体のコンテキスト整合性を保証する軽量な時間的グローバルなコンテキスト埋め込みによってガイドされる。
EditCtrlは、最先端の生成編集手法の10倍の計算効率を持つだけでなく、フルアテンションで設計された方法に比べて、編集品質も向上している。
最後に、EditCtrlがテキストプロンプトによるマルチリージョン編集や自動回帰コンテンツ伝搬など、新しい機能のアンロック方法を紹介する。
関連論文リスト
- SpotEdit: Selective Region Editing in Diffusion Transformers [66.44912649206553]
SpotEditは、修正されたリージョンのみを選択的に更新する、トレーニング不要な拡散編集フレームワークである。
不要な計算を削減し、未修正領域で高い忠実性を維持することにより、SpotEditは効率よく正確な画像編集を実現する。
論文 参考訳(メタデータ) (2025-12-26T14:59:41Z) - Region-Constraint In-Context Generation for Instructional Video Editing [91.27224696009755]
本稿では,テキスト内生成中の編集領域と非編集領域の制約モデリングに着目する新しい指導ビデオ編集パラダイムReCoを提案する。
本稿では,500Kの命令-ビデオペアからなる大規模かつ高品質なビデオ編集データセットであるReCo-Dataを提案する。
論文 参考訳(メタデータ) (2025-12-19T14:49:30Z) - EasyV2V: A High-quality Instruction-based Video Editing Framework [108.78294392167017]
キャプションemphEasyV2Vは、命令ベースのビデオ編集のためのフレームワークである。
EasyV2Vは、例えば video+text、 video+mask+reference+、最先端のビデオ編集結果などの柔軟な入力で動作する。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - VIA: Unified Spatiotemporal Video Adaptation Framework for Global and Local Video Editing [91.60658973688996]
我々は,グローバルなローカルビデオ編集のための統合ビデオ適応フレームワークであるVIAを導入し,一貫したビデオ編集の限界を推し進める。
本研究では,各フレーム内の局所的な一貫性を確保するため,事前学習した画像編集モデルに適応するテスト時間編集適応を設計した。
また,VIAは長時間の映像編集を一貫した時間で行うことができ,ビデオ編集作業が長続きする可能性を秘めていることを示す。
論文 参考訳(メタデータ) (2024-06-18T17:51:37Z) - LOVECon: Text-driven Training-Free Long Video Editing with ControlNet [9.762680144118061]
本稿では,このギャップを埋めることを目的として,学習自由拡散モデルに基づく長大ビデオ編集のための,シンプルで効果的なベースラインを確立する。
ControlNet上にパイプラインを構築し、テキストプロンプトに基づいて様々な画像編集タスクを抽出する。
本手法は,ユーザの要求に応じて数百フレームの動画を編集する。
論文 参考訳(メタデータ) (2023-10-15T02:39:25Z) - MagicEdit: High-Fidelity and Temporally Coherent Video Editing [70.55750617502696]
MagicEditは、テキスト誘導ビデオ編集タスクの驚くほどシンプルで効果的なソリューションです。
トレーニング中,コンテンツ,構造,動作信号の学習を明示的に切り離すことで,高忠実で時間的に一貫した映像翻訳を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-08-28T17:56:22Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。