論文の概要: O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing
- arxiv url: http://arxiv.org/abs/2509.01596v1
- Date: Mon, 01 Sep 2025 16:29:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.774792
- Title: O-DisCo-Edit: Object Distortion Control for Unified Realistic Video Editing
- Title(参考訳): O-DisCo-Edit:Unified Realistic Video Editingのためのオブジェクト歪み制御
- Authors: Yuqing Chen, Junjie Wang, Lin Liu, Ruihang Chu, Xiaopeng Zhang, Qi Tian, Yujiu Yang,
- Abstract要約: O-DisCo-Editは、新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークである
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、効果的なトレーニングパラダイムによる効率的な高忠実な編集を可能にする。
- 参考スコア(独自算出の注目度): 88.93410369258203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently advanced video editing, yet controllable editing remains challenging due to the need for precise manipulation of diverse object properties. Current methods require different control signal for diverse editing tasks, which complicates model design and demands significant training resources. To address this, we propose O-DisCo-Edit, a unified framework that incorporates a novel object distortion control (O-DisCo). This signal, based on random and adaptive noise, flexibly encapsulates a wide range of editing cues within a single representation. Paired with a "copy-form" preservation module for preserving non-edited regions, O-DisCo-Edit enables efficient, high-fidelity editing through an effective training paradigm. Extensive experiments and comprehensive human evaluations consistently demonstrate that O-DisCo-Edit surpasses both specialized and multitask state-of-the-art methods across various video editing tasks. https://cyqii.github.io/O-DisCo-Edit.github.io/
- Abstract(参考訳): 拡散モデルは最近、高度なビデオ編集を行っているが、様々なオブジェクト特性を正確に操作する必要があるため、制御可能な編集は難しいままである。
現在の手法では、様々な編集タスクに対して異なる制御信号を必要としており、モデル設計を複雑にし、重要なトレーニングリソースを必要とする。
そこで我々は,新しいオブジェクト歪み制御(O-DisCo)を組み込んだ統合フレームワークであるO-DisCo-Editを提案する。
この信号はランダムノイズと適応ノイズに基づいて、単一の表現内に幅広い編集キューを柔軟にカプセル化する。
O-DisCo-Editは、非編集領域を保存するためのコピー形式の保存モジュールを備えており、効果的なトレーニングパラダイムを通じて効率よく高忠実な編集を可能にする。
O-DisCo-Editは、様々なビデオ編集タスクにまたがる専門的手法とマルチタスク的手法の両方を網羅した実験と包括的人間評価が一貫して行われている。
https://cyqii.github.io/O-DisCo-Edit.github.io/
関連論文リスト
- Image Editing As Programs with Diffusion Models [69.05164729625052]
本稿では,Diffusion Transformer (DiT) アーキテクチャ上に構築された統合画像編集フレームワークである IEAP (Image Editing As Programs) を紹介する。
IEAPは、複雑な編集命令を原子操作のシーケンスに分解して、リダミストレンズによる命令編集にアプローチする。
我々のフレームワークは、特に複雑なマルチステップ命令に対して、より優れた精度とセマンティック忠実度を提供する。
論文 参考訳(メタデータ) (2025-06-04T16:57:24Z) - PRIMEdit: Probability Redistribution for Instance-aware Multi-object Video Editing with Benchmark Dataset [27.706882926164724]
PRIMEditはゼロショットフレームワークで、インスタンス中心のProbability ReistributionとDisentangled Multi-instance Samplingという2つの主要なモジュールを導入している。
我々は,多種多様なビデオシナリオを特徴とするビデオ編集のための新しいMIVEデータセットを提案し,編集リークを評価するためにCross-Instance Accuracy (CIA) Scoreを紹介した。
PRIMEditは, 信頼性, 正確性, 漏洩防止の両面において, 最近の最先端手法を著しく上回り, 質的, 定量的, ユーザスタディ評価を行った。
論文 参考訳(メタデータ) (2024-12-17T13:00:04Z) - Re-Attentional Controllable Video Diffusion Editing [48.052781838711994]
本稿では,Re-Attentional Controllable Video Diffusion Editing (ReAtCo)法を提案する。
対象物体の空間配置と編集されたテキストプロンプトを無訓練で整合させるために,再注意拡散(RAD)を提案する。
RADは、編集されたテキストプロンプトとデノナイジング段階のターゲットビデオとの間の相互注意活性化反応を再焦点化し、空間的に位置整列し、意味的に高忠実に操作されたビデオを生成する。
論文 参考訳(メタデータ) (2024-12-16T12:32:21Z) - GenVideo: One-shot Target-image and Shape Aware Video Editing using T2I Diffusion Models [2.362412515574206]
ターゲット画像認識型T2Iモデルを利用した動画編集のためのGenVideoを提案する。
提案手法は,編集の時間的一貫性を維持しつつ,形状や大きさの異なる対象オブジェクトで編集を処理する。
論文 参考訳(メタデータ) (2024-04-18T23:25:27Z) - Neutral Editing Framework for Diffusion-based Video Editing [24.370584544151424]
本稿では,複雑な非剛性編集を可能にするニュートラル編集(NeuEdit)フレームワークを提案する。
NeuEditは、拡散ベースの編集システムのチューニング編集プロセスを強化する「中立化」の概念を導入している。
多数のビデオの実験は、NeuEditフレームワークの適応性と有効性を示している。
論文 参考訳(メタデータ) (2023-12-10T16:28:32Z) - MotionEditor: Editing Video Motion via Content-Aware Diffusion [96.825431998349]
MotionEditorはビデオモーション編集のための拡散モデルである。
新たなコンテンツ対応モーションアダプタをControlNetに組み込んで、時間的モーション対応をキャプチャする。
論文 参考訳(メタデータ) (2023-11-30T18:59:33Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - CCEdit: Creative and Controllable Video Editing via Diffusion Models [58.34886244442608]
CCEditは拡散モデルに基づく多用途な生成ビデオ編集フレームワークである。
我々のアプローチは、構造と外観制御を分離する新しいトリデントネットワーク構造を用いる。
ユーザスタディでは,CCEditと8つの最先端のビデオ編集手法を比較した。
論文 参考訳(メタデータ) (2023-09-28T15:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。