Fugu-MT 論文翻訳(概要): Beyond Generation: Unlocking Universal Editing via Self-Supervised Fine-Tuning

論文の概要: Beyond Generation: Unlocking Universal Editing via Self-Supervised Fine-Tuning

arxiv url: http://arxiv.org/abs/2412.02114v2
Date: Tue, 18 Mar 2025 10:51:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 23:12:30.826207
Title: Beyond Generation: Unlocking Universal Editing via Self-Supervised Fine-Tuning
Title（参考訳）: ジェネレーションを超えて:セルフ・スーパービジョンのファイン・チューニングでユニバーサル編集をアンロック
Authors: Harold Haodong Chen, Harry Yang, Ser-Nam Lim,
Abstract要約: UES(Universal Editing via Self-Supervision)は、世代モデルを統一世代編集システムに変換する軽量な自己監督型微調整戦略である。提案手法は、オリジナルビデオテキストペアが視覚とテキストのセマンティクスを共同で提供するデュアルコンディショニング機構を確立する。オムニベンチ99(OmniBench-99)は、人間や動物、環境、オブジェクトを対象とする99の動画を網羅した総合的なベンチマークである。
参考スコア（独自算出の注目度）: 45.64777118760738
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in video generation have outpaced progress in video editing, which remains constrained by several limiting factors, namely: (a) the task's dependency on supervision severely limits generality, (b) an unnecessary artificial separation between the generation and editing task, and (c) the high computational costs of training a video model. In this work, we propose UES (Unlocking Universal Editing via Self-Supervision), a lightweight self-supervised fine-tuning strategy that transforms generation models into unified generation-editing systems through self-supervised semantic alignment. Our approach establishes a dual-conditioning mechanism where original video-text pairs jointly provide visual and textual semantics, enabling structured learning of intrinsic spatiotemporal correspondences. Key advantages include: (i) Universality through supervision-free adaptation to diverse editing tasks, (ii) Unification of generation and editing applicable to most text(+image)-to-video model, and (iii) Efficiency via lightweight fine-tune that reduces tunable parameters by 92.67%. To enable systematic evaluation, we introduce OmniBench-99, a comprehensive benchmark spanning 99 videos across humans/animals, environments, and objects, comprising 4 editing types and 8 scenarios. Extensive experiments show UES enables models without inherent editing capability to perform powerful and universal editing while preserving or even enhancing their original generation performance.
Abstract（参考訳）: ビデオ生成の最近の進歩は、ビデオ編集の進歩よりも大きくなり、いくつかの制限要因、すなわち:に制約が残されている。 (a)タスクの監督への依存は、一般性を著しく制限する。 b) 生成作業と編集作業との間の不要な人工的な分離 (c)ビデオモデルを訓練する際の計算コストが高いこと。本研究では,UES(Universal Editing via Self-Supervision)を提案する。これは,自己教師型セマンティックアライメントを通じて生成モデルを統一世代編集システムに変換する,軽量な自己教師型微調整戦略である。提案手法は,オリジナルビデオテキストペアが視覚とテキストのセマンティクスを共同で提供し,固有時空間対応の構造化学習を可能にする,二重条件機構を確立する。主な利点は以下のとおりである。一多様な編集作業への監督不要な適応による普遍性 2ほとんどのテキスト(+画像)-ビデオモデルに適用可能な生成・編集の統一及び三調整可能なパラメータを92.67%削減する軽量微調整による効率性オムニベンチ99(OmniBench-99)は、4つの編集タイプと8つのシナリオからなる、人間/動物、環境、オブジェクトに99の動画をまたがる総合的なベンチマークである。大規模な実験により、UESは固有の編集能力のないモデルで、オリジナルの世代性能を維持したり、拡張したりしながら、強力で普遍的な編集を可能にする。

関連論文リスト

Low-Cost Test-Time Adaptation for Robust Video Editing [4.707015344498921]
ビデオ編集は、生の映像を特定の視覚的・物語的目的に沿ったコヒーレントな作品に変換するコンテンツ創造の重要な要素である。既存のアプローチでは、複雑なモーションパターンのキャプチャの失敗による時間的不整合、UNetバックボーンアーキテクチャの制限による単純なプロンプトへの過度な適合、という2つの大きな課題に直面している。自己教師型補助タスクによる推論中に各テストビデオの最適化をパーソナライズする軽量なテスト時間適応フレームワークであるVid-TTAを提案する。
論文参考訳（メタデータ） (2025-07-29T14:31:17Z)
UNIC: Unified In-Context Video Editing [76.76077875564526]
UNIC(Unified In-Context Video Editing)は、単一のモデル内でさまざまなビデオ編集タスクをコンテキスト内で統一するフレームワークである。本稿では,一貫した時間的位置エンコーディングを容易にするタスク認識型RoPEと,モデルの異なる編集タスクを明確に区別する条件バイアスを導入する。その結果、我々の統合された手法は各タスクにおいて優れた性能を発揮し、創発的なタスク構成能力を示すことがわかった。
論文参考訳（メタデータ） (2025-06-04T17:57:43Z)
FullDiT: Multi-Task Video Generative Foundation Model with Full Attention [37.776430879317765]
FullDiTはビデオ生成のための統一基盤モデルであり、統合されたフルアテンション機構によって複数の条件をシームレスに統合する。実験により、FullDiTは最先端の結果を達成し、複雑なマルチタスクビデオ生成におけるフルアテンションの有効性を強調した。
論文参考訳（メタデータ） (2025-03-25T17:59:06Z)
MAKIMA: Tuning-free Multi-Attribute Open-domain Video Editing via Mask-Guided Attention Modulation [55.101611012677616]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは,グローバルビデオ編集タスクにおいて顕著な結果を示した。我々は、オープンドメインビデオ編集のための事前訓練されたT2Iモデル上に構築された、チューニング不要なMAEフレームワークであるMAKIMAを紹介する。
論文参考訳（メタデータ） (2024-12-28T02:36:51Z)
SPAgent: Adaptive Task Decomposition and Model Selection for General Video Generation and Editing [50.098005973600024]
セマンティック・プランニング・エージェント(SPAgent)を利用した新しい映像生成・編集システムを提案する。 SPAgentは、多様なユーザ意図と既存の生成モデルの有効利用の間のギャップを埋める。実験結果は、SPAgentが効果的にモデルをコーディネートしてビデオの生成や編集を行うことを示した。
論文参考訳（メタデータ） (2024-11-28T08:07:32Z)
Shaping a Stabilized Video by Mitigating Unintended Changes for Concept-Augmented Video Editing [12.38953947065143]
本研究は、多種多様な安定したターゲット映像を柔軟に生成する改良されたコンセプト拡張ビデオ編集手法を提案する。このフレームワークには、概念強化されたテキストインバージョンと、二重の事前監視機構が含まれる。包括的評価により,本手法はより安定的で生活的なビデオを生成し,最先端の手法より優れていることが示された。
論文参考訳（メタデータ） (2024-10-16T13:03:15Z)
Zero-Shot Video Editing through Adaptive Sliding Score Distillation [51.57440923362033]
本研究は,オリジナルビデオコンテンツの直接操作を容易にする,ビデオベースのスコア蒸留の新たなパラダイムを提案する。本稿では,グローバルとローカルの両方の動画ガイダンスを取り入れた適応スライディングスコア蒸留方式を提案する。
論文参考訳（メタデータ） (2024-06-07T12:33:59Z)
I2VEdit: First-Frame-Guided Video Editing via Image-to-Video Diffusion Models [18.36472998650704]
本稿では,1フレームからビデオ全体への編集を事前学習した画像対ビデオモデルを用いてプロパガンダすることで,画像編集ツールをビデオに適用可能にする,新しい汎用的ソリューションを提案する。 I2VEditと呼ばれる本手法は,編集範囲に応じて映像の視覚的・運動的整合性を適応的に保持する。
論文参考訳（メタデータ） (2024-05-26T11:47:40Z)
UniEdit: A Unified Tuning-Free Framework for Video Motion and Appearance Editing [28.140945021777878]
ビデオモーションと外観編集の両方をサポートする、チューニング不要のフレームワークであるUniEditを提示する。映像コンテンツを保存しながら動きの編集を実現するため,補助的な動き参照と再構成のブランチを導入する。得られた特徴は、時間的および空間的自己注意層を介して、主編集経路に注入される。
論文参考訳（メタデータ） (2024-02-20T17:52:12Z)
CCEdit: Creative and Controllable Video Editing via Diffusion Models [58.34886244442608]
CCEditは拡散モデルに基づく多用途な生成ビデオ編集フレームワークである。我々のアプローチは、構造と外観制御を分離する新しいトリデントネットワーク構造を用いる。ユーザスタディでは,CCEditと8つの最先端のビデオ編集手法を比較した。
論文参考訳（メタデータ） (2023-09-28T15:03:44Z)
VidEdit: Zero-Shot and Spatially Aware Text-Driven Video Editing [18.24307442582304]
ゼロショットテキストベースのビデオ編集のための新しい方法であるVidEditを紹介する。実験の結果,VidEditはDAVISデータセット上で最先端の手法より優れていることがわかった。
論文参考訳（メタデータ） (2023-06-14T19:15:49Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Make-A-Protagonist: Generic Video Editing with An Ensemble of Experts [116.05656635044357]
我々はMake-A-Protagonistと呼ばれる一般的なビデオ編集フレームワークを提案する。具体的には、複数の専門家を利用してソース映像を解析し、視覚的・テキスト的手がかりをターゲットとし、視覚的・テキスト的映像生成モデルを提案する。その結果,Make-A-Protagonistの多種多様な編集能力を実証した。
論文参考訳（メタデータ） (2023-05-15T17:59:03Z)
FateZero: Fusing Attentions for Zero-shot Text-based Video Editing [104.27329655124299]
本研究では,FateZeroを提案する。FateZeroは,実世界のビデオに対して,プロンプトごとのトレーニングや使用専用のマスクを使わずに,ゼロショットのテキストベースの編集手法である。本手法は、ゼロショットテキスト駆動型ビデオスタイルと、訓練されたテキスト・ツー・イメージモデルからローカル属性を編集する機能を示す最初の方法である。
論文参考訳（メタデータ） (2023-03-16T17:51:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。