論文の概要: OmniCreator: Self-Supervised Unified Generation with Universal Editing
- arxiv url: http://arxiv.org/abs/2412.02114v1
- Date: Tue, 03 Dec 2024 03:10:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 21:11:22.856595
- Title: OmniCreator: Self-Supervised Unified Generation with Universal Editing
- Title(参考訳): OmniCreator:Universal Editingを備えたセルフスーパービジョン統一世代
- Authors: Haodong Chen, Lan Wang, Harry Yang, Ser-Nam Lim,
- Abstract要約: 我々はOmniCreatorを紹介した。OmniCreatorはテキストプロンプトで統一された(画像+ビデオ)生成と編集を行うことができるフレームワークである。
OmniCreatorは、自己管理的な方法で生成的および普遍的な編集機能を取得する。
私たちは、OmniCreatorを真に統一されたフレームワークにするのと同じ機能をイメージに拡張していることに気付きました。
- 参考スコア(独自算出の注目度): 53.355176175580695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce OmniCreator, a novel framework that can conduct text-prompted unified (image+video) generation as well as editing all in one place. OmniCreator acquires generative and universal editing capabilities in a self-supervised manner, taking original text-video pairs as conditions while utilizing the same video as a denoising target to learn the semantic correspondence between video and text. During inference, when presented with a text prompt and a video, OmniCreator is capable of generating a target that is faithful to both, achieving a universal editing effect that is unconstrained as opposed to existing editing work that primarily focuses on certain editing types or relies on additional controls (e.g., structural conditions, attention features, or DDIM inversion). On the other hand, when presented with a text prompt only, OmniCreator becomes generative, producing high-quality video as a result of the semantic correspondence learned. Importantly, we found that the same capabilities extend to images as is, making OmniCreator a truly unified framework. Further, due to the lack of existing generative video editing benchmarks, we introduce the OmniBench-99 dataset, designed to evaluate the performance of generative video editing models comprehensively. Extensive experiments demonstrate that OmniCreator exhibits substantial superiority over all other models.
- Abstract(参考訳): 我々はOmniCreatorを紹介した。OmniCreatorは、テキストプロンプトによる統一(画像+ビデオ)生成と、すべての編集を一箇所で行うことができる新しいフレームワークである。
OmniCreatorは、ビデオとテキストのセマンティック対応を学習するために、デノナイジングターゲットとして同じビデオを使用しながら、オリジナルのテキストとビデオのペアを条件として、自己教師付きで生成的および普遍的な編集機能を取得する。
推測中、テキストプロンプトとビデオが提示されると、OmniCreatorは双方に忠実なターゲットを生成し、特定の編集タイプや追加の制御(構造条件、注目機能、DDIMインバージョンなど)に主にフォーカスする既存の編集作業とは対照的に、制約のない普遍的な編集効果を達成する。
一方、テキストプロンプトのみを提示すると、OmniCreatorは、学習した意味対応の結果、高品質なビデオを生成する。
重要なことは、OmniCreatorが真に統一されたフレームワークになるため、同じ機能がイメージに拡張されることがわかりました。
さらに、既存の生成ビデオ編集ベンチマークの欠如により、生成ビデオ編集モデルの性能を総合的に評価するOmniBench-99データセットを導入する。
大規模な実験により、OmniCreatorは他のすべてのモデルよりもかなり優れていることが示された。
関連論文リスト
- FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [37.776430879317765]
FullDiTはビデオ生成のための統一基盤モデルであり、統合されたフルアテンション機構によって複数の条件をシームレスに統合する。
実験により、FullDiTは最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性を強調した。
論文 参考訳(メタデータ) (2025-03-25T17:59:06Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。
SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。
実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文 参考訳(メタデータ) (2024-11-28T08:07:32Z) - Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing [12.38953947065143]
本研究は、多種多様な安定したターゲット映像を柔軟に生成する改良されたコンセプト拡張ビデオ編集手法を提案する。
このフレームワークには、概念強化されたテキストインバージョンと、二重の事前監視機構が含まれる。
包括的評価により,本手法はより安定的で生活的なビデオを生成し,最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-10-16T13:03:15Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - CCEdit: Creative and Controllable Video Editing via Diffusion Models [58.34886244442608]
CCEditは拡散モデルに基づく多用途な生成ビデオ編集フレームワークである。
我々のアプローチは、構造と外観制御を分離する新しいトリデントネットワーク構造を用いる。
ユーザスタディでは,CCEditと8つの最先端のビデオ編集手法を比較した。
論文 参考訳(メタデータ) (2023-09-28T15:03:44Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。