論文の概要: DreamVE: Unified Instruction-based Image and Video Editing
- arxiv url: http://arxiv.org/abs/2508.06080v1
- Date: Fri, 08 Aug 2025 07:20:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:06.117543
- Title: DreamVE: Unified Instruction-based Image and Video Editing
- Title(参考訳): DreamVE:Unified Instruction-based Image and Video Editing
- Authors: Bin Xia, Jiyang Liu, Yuechen Zhang, Bohao Peng, Ruihang Chu, Yitong Wang, Xinglong Wu, Bei Yu, Jiaya Jia,
- Abstract要約: 本稿では,DreamVEを紹介した。DreamVEは命令ベースの画像編集とビデオ編集の統一モデルである。
本稿では,まず画像編集,次にビデオ編集という2段階の学習戦略を提案する。
我々はコラージュベースおよび生成モデルベースデータ合成を含む包括的トレーニングデータパイプラインを提案する。
- 参考スコア(独自算出の注目度): 48.59380808274814
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instruction-based editing holds vast potential due to its simple and efficient interactive editing format. However, instruction-based editing, particularly for video, has been constrained by limited training data, hindering its practical application. To this end, we introduce DreamVE, a unified model for instruction-based image and video editing. Specifically, We propose a two-stage training strategy: first image editing, then video editing. This offers two main benefits: (1) Image data scales more easily, and models are more efficient to train, providing useful priors for faster and better video editing training. (2) Unifying image and video generation is natural and aligns with current trends. Moreover, we present comprehensive training data synthesis pipelines, including collage-based and generative model-based data synthesis. The collage-based data synthesis combines foreground objects and backgrounds to generate diverse editing data, such as object manipulation, background changes, and text modifications. It can easily generate billions of accurate, consistent, realistic, and diverse editing pairs. We pretrain DreamVE on extensive collage-based data to achieve strong performance in key editing types and enhance generalization and transfer capabilities. However, collage-based data lacks some attribute editing cases, leading to a relative drop in performance. In contrast, the generative model-based pipeline, despite being hard to scale up, offers flexibility in handling attribute editing cases. Therefore, we use generative model-based data to further fine-tune DreamVE. Besides, we design an efficient and powerful editing framework for DreamVE. We build on the SOTA T2V model and use a token concatenation with early drop approach to inject source image guidance, ensuring strong consistency and editability. The codes and models will be released.
- Abstract(参考訳): インストラクションベースの編集は、シンプルで効率的なインタラクティブな編集フォーマットのため、大きな可能性を秘めている。
しかし、命令ベースの編集、特にビデオは、限られた訓練データによって制限されており、その実践的応用を妨げている。
そこで我々は,DreamVEを紹介した。DreamVEは命令ベースの画像編集とビデオ編集の統一モデルである。
具体的には,まず画像編集,次にビデオ編集という2段階のトレーニング戦略を提案する。
1) 画像データのスケールがより簡単で、モデルはトレーニングの効率が良く、より高速でより良いビデオ編集のトレーニングに有用な事前情報を提供する。
2)画像と映像の統一は自然であり,現在の傾向と一致している。
さらに,コラージュベースおよび生成モデルベースデータ合成を含む包括的学習データ合成パイプラインを提案する。
コラージュベースのデータ合成は、前景のオブジェクトと背景を組み合わせて、オブジェクト操作、バックグラウンド変更、テキスト修正などの多様な編集データを生成する。
何十億もの正確で一貫性があり、現実的で多様な編集ペアを簡単に生成できる。
我々はDreamVEをコラージュベースの広範囲なデータで事前訓練し、キー編集型の強力な性能を実現し、一般化と転送機能を向上させる。
しかし、コラージュベースのデータにはいくつかの属性編集ケースがないため、相対的なパフォーマンス低下につながっている。
対照的に、生成モデルベースのパイプラインは、スケールアップが難しいにもかかわらず、属性編集ケースを扱う柔軟性を提供する。
そこで我々は生成モデルに基づくデータを用いてDreamVEをさらに微調整する。
また,DreamVEのための効率的かつ強力な編集フレームワークを設計する。
我々は、SOTA T2Vモデルに基づいて、早期ドロップアプローチとトークン結合を用いて、ソースイメージガイダンスを注入し、一貫性と編集性を確保する。
コードとモデルがリリースされる。
関連論文リスト
- VEGGIE: Instructional Editing and Reasoning of Video Concepts with Grounded Generation [67.31149310468801]
本稿では,VEGGIEを紹介する。VEGGIEは,多様なユーザインストラクションに基づいて,ビデオコンセプトの編集,グラウンド化,推論を統一する,シンプルなエンドツーエンドフレームワークである。
VEGGIEは、異なる編集スキルを持つ指導ビデオ編集において高い性能を示し、汎用モデルとして最高の指導ベースラインを達成している。
論文 参考訳(メタデータ) (2025-03-18T15:31:12Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - EffiVED:Efficient Video Editing via Text-instruction Diffusion Models [9.287394166165424]
EffiVEDは、命令誘導ビデオ編集をサポートする効率的な拡散ベースモデルである。
我々は、膨大な画像編集データセットとオープンワールドビデオを、EffiVEDをトレーニングするための高品質なデータセットに変換する。
論文 参考訳(メタデータ) (2024-03-18T08:42:08Z) - Neural Video Fields Editing [56.558490998753456]
NVEditは、メモリオーバーヘッドを軽減し、一貫性を向上させるために設計された、テキスト駆動のビデオ編集フレームワークである。
我々は、数百フレームの長いビデオのエンコーディングを可能にするために、三面体とスパースグリッドを用いたニューラルビデオフィールドを構築した。
次に、オフザシェルフテキスト・トゥ・イメージ(T2I)モデルを用いて、ビデオフィールドをテキスト駆動編集エフェクトに更新する。
論文 参考訳(メタデータ) (2023-12-12T14:48:48Z) - Video-P2P: Video Editing with Cross-attention Control [68.64804243427756]
Video-P2Pは、クロスアテンション制御による現実世界のビデオ編集のための新しいフレームワークである。
Video-P2Pは、オリジナルのポーズやシーンを最適に保存しながら、新しいキャラクターを生成する現実世界のビデオでうまく機能する。
論文 参考訳(メタデータ) (2023-03-08T17:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。