論文の概要: OmniCreator: Self-Supervised Unified Generation with Universal Editing
- arxiv url: http://arxiv.org/abs/2412.02114v1
- Date: Tue, 03 Dec 2024 03:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:49:46.288203
- Title: OmniCreator: Self-Supervised Unified Generation with Universal Editing
- Title(参考訳): OmniCreator:Universal Editingを備えたセルフスーパービジョン統一世代
- Authors: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim,
- Abstract要約: 我々はOmniCreatorを紹介した。OmniCreatorはテキストプロンプトで統一された(画像+ビデオ)生成と編集を行うことができるフレームワークである。
OmniCreatorは、自己管理的な方法で生成的および普遍的な編集機能を取得する。
私たちは、OmniCreatorを真に統一されたフレームワークにするのと同じ機能をイメージに拡張していることに気付きました。
- 参考スコア(独自算出の注目度): 53.355176175580695
- License:
- Abstract: We introduce OmniCreator, a novel framework that can conduct text-prompted unified (image+video) generation as well as editing all in one place. OmniCreator acquires generative and universal editing capabilities in a self-supervised manner, taking original text-video pairs as conditions while utilizing the same video as a denoising target to learn the semantic correspondence between video and text. During inference, when presented with a text prompt and a video, OmniCreator is capable of generating a target that is faithful to both, achieving a universal editing effect that is unconstrained as opposed to existing editing work that primarily focuses on certain editing types or relies on additional controls (e.g., structural conditions, attention features, or DDIM inversion). On the other hand, when presented with a text prompt only, OmniCreator becomes generative, producing high-quality video as a result of the semantic correspondence learned. Importantly, we found that the same capabilities extend to images as is, making OmniCreator a truly unified framework. Further, due to the lack of existing generative video editing benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the performance of generative video editing models comprehensively. Extensive experiments demonstrate that OmniCreator exhibits substantial superiority over all other models.
- Abstract(参考訳): 我々はOmniCreatorを紹介した。OmniCreatorは、テキストプロンプトによる統一(画像+ビデオ)生成と、すべての編集を一箇所で行うことができる新しいフレームワークである。
OmniCreatorは、ビデオとテキストのセマンティック対応を学習するために、デノナイジングターゲットとして同じビデオを使用しながら、オリジナルのテキストとビデオのペアを条件として、自己教師付きで生成的および普遍的な編集機能を取得する。
推測中、テキストプロンプトとビデオが提示されると、OmniCreatorは双方に忠実なターゲットを生成し、特定の編集タイプや追加の制御(構造条件、注目機能、DDIMインバージョンなど)に主にフォーカスする既存の編集作業とは対照的に、制約のない普遍的な編集効果を達成する。
一方、テキストプロンプトのみを提示すると、OmniCreatorは、学習した意味対応の結果、高品質なビデオを生成する。
重要なことは、OmniCreatorが真に統一されたフレームワークになるため、同じ機能がイメージに拡張されることがわかりました。
さらに、既存の生成ビデオ編集ベンチマークの欠如により、生成ビデオ編集モデルの性能を総合的に評価するOmniBench-99データセットを導入する。
大規模な実験により、OmniCreatorは他のすべてのモデルよりもかなり優れていることが示された。
関連論文リスト
- UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.10447111842504]
UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。
近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。
画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文 参考訳(メタデータ) (2024-12-10T18:59:55Z) - DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。
DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。
正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文 参考訳(メタデータ) (2024-12-04T14:28:43Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Intelligent Video Editing: Incorporating Modern Talking Face Generation
Algorithms in a Video Editor [44.36920938661454]
本稿では,OpenShotをベースとした顔画像編集アルゴリズムを付加機能として提案する。
我々のエディターは、現代的なリップ同期アルゴリズムを対話的に適用するための使いやすいインタフェースを提供する。
評価の結果,人為的編集の効率が向上し,映像の質が向上した。
論文 参考訳(メタデータ) (2021-10-16T14:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。