論文の概要: Beyond Generation: Unlocking Universal Editing via Self-Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2412.02114v2
- Date: Tue, 18 Mar 2025 10:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 23:12:30.826207
- Title: Beyond Generation: Unlocking Universal Editing via Self-Supervised Fine-Tuning
- Title(参考訳): ジェネレーションを超えて:セルフ・スーパービジョンのファイン・チューニングでユニバーサル編集をアンロック
- Authors: Harold Haodong Chen, Harry Yang, Ser-Nam Lim,
- Abstract要約: UES(Universal Editing via Self-Supervision)は、世代モデルを統一世代編集システムに変換する軽量な自己監督型微調整戦略である。
提案手法は、オリジナルビデオテキストペアが視覚とテキストのセマンティクスを共同で提供するデュアルコンディショニング機構を確立する。
オムニベンチ99(OmniBench-99)は、人間や動物、環境、オブジェクトを対象とする99の動画を網羅した総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 45.64777118760738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in video generation have outpaced progress in video editing, which remains constrained by several limiting factors, namely: (a) the task's dependency on supervision severely limits generality, (b) an unnecessary artificial separation between the generation and editing task, and (c) the high computational costs of training a video model. In this work, we propose UES (Unlocking Universal Editing via Self-Supervision), a lightweight self-supervised fine-tuning strategy that transforms generation models into unified generation-editing systems through self-supervised semantic alignment. Our approach establishes a dual-conditioning mechanism where original video-text pairs jointly provide visual and textual semantics, enabling structured learning of intrinsic spatiotemporal correspondences. Key advantages include: (i) Universality through supervision-free adaptation to diverse editing tasks, (ii) Unification of generation and editing applicable to most text(+image)-to-video model, and (iii) Efficiency via lightweight fine-tune that reduces tunable parameters by 92.67%. To enable systematic evaluation, we introduce OmniBench-99, a comprehensive benchmark spanning 99 videos across humans/animals, environments, and objects, comprising 4 editing types and 8 scenarios. Extensive experiments show UES enables models without inherent editing capability to perform powerful and universal editing while preserving or even enhancing their original generation performance.
- Abstract(参考訳): ビデオ生成の最近の進歩は、ビデオ編集の進歩よりも大きくなり、いくつかの制限要因、すなわち:に制約が残されている。
(a)タスクの監督への依存は、一般性を著しく制限する。
b) 生成作業と編集作業との間の不要な人工的な分離
(c)ビデオモデルを訓練する際の計算コストが高いこと。
本研究では,UES(Universal Editing via Self-Supervision)を提案する。これは,自己教師型セマンティックアライメントを通じて生成モデルを統一世代編集システムに変換する,軽量な自己教師型微調整戦略である。
提案手法は,オリジナルビデオテキストペアが視覚とテキストのセマンティクスを共同で提供し,固有時空間対応の構造化学習を可能にする,二重条件機構を確立する。
主な利点は以下のとおりである。
一 多様な編集作業への監督不要な適応による普遍性
2ほとんどのテキスト(+画像)-ビデオモデルに適用可能な生成・編集の統一及び
三 調整可能なパラメータを92.67%削減する軽量微調整による効率性
オムニベンチ99(OmniBench-99)は、4つの編集タイプと8つのシナリオからなる、人間/動物、環境、オブジェクトに99の動画をまたがる総合的なベンチマークである。
大規模な実験により、UESは固有の編集能力のないモデルで、オリジナルの世代性能を維持したり、拡張したりしながら、強力で普遍的な編集を可能にする。
関連論文リスト
- FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [37.776430879317765]
FullDiTはビデオ生成のための統一基盤モデルであり、統合されたフルアテンション機構によって複数の条件をシームレスに統合する。
実験により、FullDiTは最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性を強調した。
論文 参考訳(メタデータ) (2025-03-25T17:59:06Z) - MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。
我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文 参考訳(メタデータ) (2024-12-28T02:36:51Z) - SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。
SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。
実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文 参考訳(メタデータ) (2024-11-28T08:07:32Z) - Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing [12.38953947065143]
本研究は、多種多様な安定したターゲット映像を柔軟に生成する改良されたコンセプト拡張ビデオ編集手法を提案する。
このフレームワークには、概念強化されたテキストインバージョンと、二重の事前監視機構が含まれる。
包括的評価により,本手法はより安定的で生活的なビデオを生成し,最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-10-16T13:03:15Z) - Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。
本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:33:59Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - CCEdit: Creative and Controllable Video Editing via Diffusion Models [58.34886244442608]
CCEditは拡散モデルに基づく多用途な生成ビデオ編集フレームワークである。
我々のアプローチは、構造と外観制御を分離する新しいトリデントネットワーク構造を用いる。
ユーザスタディでは,CCEditと8つの最先端のビデオ編集手法を比較した。
論文 参考訳(メタデータ) (2023-09-28T15:03:44Z) - VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。
実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-14T19:15:49Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。