論文の概要: Beyond Generation: Unlocking Universal Editing via Self-Supervised Fine-Tuning
- arxiv url: http://arxiv.org/abs/2412.02114v2
- Date: Tue, 18 Mar 2025 10:51:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:13:17.951209
- Title: Beyond Generation: Unlocking Universal Editing via Self-Supervised Fine-Tuning
- Title(参考訳): ジェネレーションを超えて:セルフ・スーパービジョンのファイン・チューニングでユニバーサル編集をアンロック
- Authors: Harold Haodong Chen, Harry Yang, Ser-Nam Lim,
- Abstract要約: UES(Universal Editing via Self-Supervision)は、世代モデルを統一世代編集システムに変換する軽量な自己監督型微調整戦略である。
提案手法は、オリジナルビデオテキストペアが視覚とテキストのセマンティクスを共同で提供するデュアルコンディショニング機構を確立する。
オムニベンチ99(OmniBench-99)は、人間や動物、環境、オブジェクトを対象とする99の動画を網羅した総合的なベンチマークである。
- 参考スコア(独自算出の注目度): 45.64777118760738
- License:
- Abstract: Recent advances in video generation have outpaced progress in video editing, which remains constrained by several limiting factors, namely: (a) the task's dependency on supervision severely limits generality, (b) an unnecessary artificial separation between the generation and editing task, and (c) the high computational costs of training a video model. In this work, we propose UES (Unlocking Universal Editing via Self-Supervision), a lightweight self-supervised fine-tuning strategy that transforms generation models into unified generation-editing systems through self-supervised semantic alignment. Our approach establishes a dual-conditioning mechanism where original video-text pairs jointly provide visual and textual semantics, enabling structured learning of intrinsic spatiotemporal correspondences. Key advantages include: (i) Universality through supervision-free adaptation to diverse editing tasks, (ii) Unification of generation and editing applicable to most text(+image)-to-video model, and (iii) Efficiency via lightweight fine-tune that reduces tunable parameters by 92.67%. To enable systematic evaluation, we introduce OmniBench-99, a comprehensive benchmark spanning 99 videos across humans/animals, environments, and objects, comprising 4 editing types and 8 scenarios. Extensive experiments show UES enables models without inherent editing capability to perform powerful and universal editing while preserving or even enhancing their original generation performance.
- Abstract(参考訳): ビデオ生成の最近の進歩は、ビデオ編集の進歩よりも大きくなり、いくつかの制限要因、すなわち:に制約が残されている。
(a)タスクの監督への依存は、一般性を著しく制限する。
b) 生成作業と編集作業との間の不要な人工的な分離
(c)ビデオモデルを訓練する際の計算コストが高いこと。
本研究では,UES(Universal Editing via Self-Supervision)を提案する。これは,自己教師型セマンティックアライメントを通じて生成モデルを統一世代編集システムに変換する,軽量な自己教師型微調整戦略である。
提案手法は,オリジナルビデオテキストペアが視覚とテキストのセマンティクスを共同で提供し,固有時空間対応の構造化学習を可能にする,二重条件機構を確立する。
主な利点は以下のとおりである。
一 多様な編集作業への監督不要な適応による普遍性
2ほとんどのテキスト(+画像)-ビデオモデルに適用可能な生成・編集の統一及び
三 調整可能なパラメータを92.67%削減する軽量微調整による効率性
オムニベンチ99(OmniBench-99)は、4つの編集タイプと8つのシナリオからなる、人間/動物、環境、オブジェクトに99の動画をまたがる総合的なベンチマークである。
大規模な実験により、UESは固有の編集能力のないモデルで、オリジナルの世代性能を維持したり、拡張したりしながら、強力で普遍的な編集を可能にする。
関連論文リスト
- UniReal: Universal Image Generation and Editing via Learning Real-world Dynamics [74.10447111842504]
UniRealは、様々な画像生成および編集タスクに対処するために設計された統一されたフレームワークである。
近年の映像生成モデルに着想を得て,画像レベルのタスクを不連続な映像生成として扱う統一的手法を提案する。
画像レベルのタスク用に設計されているが、ユニバーサルな監視のためのスケーラブルなソースとしてビデオを活用している。
論文 参考訳(メタデータ) (2024-12-10T18:59:55Z) - DIVE: Taming DINO for Subject-Driven Video Editing [49.090071984272576]
DINO-Guided Video Editing (DIVE) は、ソースビデオの主題駆動編集を容易にするために設計されたフレームワークである。
DIVEは、ソースビデオの運動軌跡に合わせるためにDINO機能を使用している。
正確な主題編集のために、DIVEは参照画像のDINO特徴を事前訓練されたテキスト・ツー・イメージモデルに組み込む。
論文 参考訳(メタデータ) (2024-12-04T14:28:43Z) - I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。
I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文 参考訳(メタデータ) (2024-05-26T11:47:40Z) - UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。
映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。
得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文 参考訳(メタデータ) (2024-02-20T17:52:12Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z) - Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。
具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。
その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文 参考訳(メタデータ) (2023-05-15T17:59:03Z) - FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。
本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文 参考訳(メタデータ) (2023-03-16T17:51:13Z) - Intelligent Video Editing: Incorporating Modern Talking Face Generation
Algorithms in a Video Editor [44.36920938661454]
本稿では,OpenShotをベースとした顔画像編集アルゴリズムを付加機能として提案する。
我々のエディターは、現代的なリップ同期アルゴリズムを対話的に適用するための使いやすいインタフェースを提供する。
評価の結果,人為的編集の効率が向上し,映像の質が向上した。
論文 参考訳(メタデータ) (2021-10-16T14:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。