論文の概要: ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks
- arxiv url: http://arxiv.org/abs/2604.07958v1
- Date: Thu, 09 Apr 2026 08:22:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.797103
- Title: ImVideoEdit: Image-learning Video Editing via 2D Spatial Difference Attention Blocks
- Title(参考訳): ImVideoEdit:2次元空間差注意ブロックによる画像学習ビデオ編集
- Authors: Jiayang Xu, Fan Zhuo, Majun Zhang, Changhao Pan, Zehan Wang, Siyu Chen, Xiaoda Yang, Tao Jin, Zhou Zhao,
- Abstract要約: 我々は,画像ペアから映像編集能力を学習する効率的なフレームワークImVideoEditを提案する。
トレーニング済みの3Dアテンションモジュールを凍結し、画像を単一フレームビデオとして扱うことにより、2次元空間学習プロセスを分離し、元の時間的ダイナミクスの保存を支援する。
計算オーバーヘッドが極めて少ない5つのエポックに対して、たった13Kイメージペアをトレーニングしているにも関わらず、ImVideoEditは、広範なビデオデータセットでトレーニングされたより大きなモデルに匹敵する、編集の忠実さと時間的一貫性を実現している。
- 参考スコア(独自算出の注目度): 46.442660004277734
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video editing models often rely on expensive paired video data, which limits their practical scalability. In essence, most video editing tasks can be formulated as a decoupled spatiotemporal process, where the temporal dynamics of the pretrained model are preserved while spatial content is selectively and precisely modified. Based on this insight, we propose ImVideoEdit, an efficient framework that learns video editing capabilities entirely from image pairs. By freezing the pre-trained 3D attention modules and treating images as single-frame videos, we decouple the 2D spatial learning process to help preserve the original temporal dynamics. The core of our approach is a Predict-Update Spatial Difference Attention module that progressively extracts and injects spatial differences. Rather than relying on rigid external masks, we incorporate a Text-Guided Dynamic Semantic Gating mechanism for adaptive and implicit text-driven modifications. Despite training on only 13K image pairs for 5 epochs with exceptionally low computational overhead, ImVideoEdit achieves editing fidelity and temporal consistency comparable to larger models trained on extensive video datasets.
- Abstract(参考訳): 現在のビデオ編集モデルは、しばしば高価なペアのビデオデータに依存しており、実用的スケーラビリティを制限している。
本質的に、ほとんどのビデオ編集タスクは、空間的内容が選択的かつ正確に修正されている間に、事前訓練されたモデルの時間的ダイナミクスを保存する、分離された時空間過程として定式化することができる。
この知見に基づいて,画像ペアから映像編集能力を学習する効率的なフレームワークImVideoEditを提案する。
トレーニング済みの3Dアテンションモジュールを凍結し、画像を単一フレームビデオとして扱うことにより、2次元空間学習プロセスを分離し、元の時間的ダイナミクスの保存を支援する。
提案手法の核となるのは,空間差分を段階的に抽出し注入する予測更新空間差分注意モジュールである。
厳密な外部マスクに頼るのではなく、適応的で暗黙的なテキスト駆動型修正のためのテキストガイド動的セマンティックゲーティング機構を組み込んだ。
計算オーバーヘッドが極めて少ない5つのエポックに対して、たった13Kイメージペアをトレーニングしているにも関わらず、ImVideoEditは、広範なビデオデータセットでトレーニングされたより大きなモデルに匹敵する、編集の忠実さと時間的一貫性を実現している。
関連論文リスト
- Temporally Consistent Object Editing in Videos using Extended Attention [9.605596668263173]
本稿では,事前学習した画像拡散モデルを用いて映像を編集する手法を提案する。
編集された情報がすべてのビデオフレームで一貫していることを保証する。
論文 参考訳(メタデータ) (2024-06-01T02:31:16Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - Edit-Your-Motion: Space-Time Diffusion Decoupling Learning for Video Motion Editing [46.56615725175025]
本稿では,ワンショット微調整による未確認課題に対処するビデオモーション編集手法であるEdit-Your-Motionを紹介する。
映像の動作と外観を効果的に分離するために,時間的二段階学習戦略を設計する。
Edit-Your-Motionを使えば、ユーザーはソースビデオの中の人間の動きを編集でき、より魅力的で多様なコンテンツを作ることができる。
論文 参考訳(メタデータ) (2024-05-07T17:06:59Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image
Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。
トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。
実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2023-10-02T11:28:37Z) - Edit Temporal-Consistent Videos with Image Diffusion Model [49.88186997567138]
大規模テキスト・ツー・イメージ(T2I)拡散モデルがテキスト誘導ビデオ編集のために拡張されている。
Tは、ビデオ時間的一貫性とビデオ編集機能の両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-08-17T16:40:55Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Pix2Video: Video Editing using Image Diffusion [43.07444438561277]
テキスト誘導映像編集における事前学習画像モデルの使用方法について検討する。
まず、事前訓練された構造誘導画像拡散モデルを用いて、アンカーフレーム上でテキスト誘導編集を行う。
我々は、計算集約的な事前処理やビデオ固有の微調整なしに、リアルなテキスト誘導ビデオ編集が可能であることを実証した。
論文 参考訳(メタデータ) (2023-03-22T16:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。