Fugu-MT 論文翻訳(概要): PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

論文の概要: PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models

arxiv url: http://arxiv.org/abs/2602.20583v1
Date: Tue, 24 Feb 2026 06:11:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.626746
Title: PropFly: Learning to Propagate via On-the-Fly Supervision from Pre-trained Video Diffusion Models
Title（参考訳）: PropFly: 事前学習されたビデオ拡散モデルによるオンザフライスーパービジョンによるプロパゲーションの学習
Authors: Wonyong Seo, Jaeho Moon, Jaehyup Lee, Soo Ye Kim, Munchurl Kim,
Abstract要約: PropFlyは、伝搬ベースのビデオ編集のためのトレーニングパイプラインである。 PropFlyはトレーニング済みのビデオ拡散モデル(VDM)に依存している。我々のパイプラインは、事前訓練されたVDMにアタッチされたアダプタが、誘導変調フローマッチング(GMFM)損失を介して編集を伝達することを学ぶことを可能にする。
参考スコア（独自算出の注目度）: 35.59605874012795
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Propagation-based video editing enables precise user control by propagating a single edited frame into following frames while maintaining the original context such as motion and structures. However, training such models requires large-scale, paired (source and edited) video datasets, which are costly and complex to acquire. Hence, we propose the PropFly, a training pipeline for Propagation-based video editing, relying on on-the-Fly supervision from pre-trained video diffusion models (VDMs) instead of requiring off-the-shelf or precomputed paired video editing datasets. Specifically, our PropFly leverages one-step clean latent estimations from intermediate noised latents with varying Classifier-Free Guidance (CFG) scales to synthesize diverse pairs of 'source' (low-CFG) and 'edited' (high-CFG) latents on-the-fly. The source latent serves as structural information of the video, while the edited latent provides the target transformation for learning propagation. Our pipeline enables an additional adapter attached to the pre-trained VDM to learn to propagate edits via Guidance-Modulated Flow Matching (GMFM) loss, which guides the model to replicate the target transformation. Our on-the-fly supervision ensures the model to learn temporally consistent and dynamic transformations. Extensive experiments demonstrate that our PropFly significantly outperforms the state-of-the-art methods on various video editing tasks, producing high-quality editing results.
Abstract（参考訳）: プロパゲーションベースのビデオ編集は、単一の編集されたフレームを下記のフレームに伝播させ、動きや構造のような元のコンテキストを維持しながら正確なユーザ制御を可能にする。しかし、そのようなモデルのトレーニングには、大規模な、ペア化された(ソースと編集された)ビデオデータセットが必要である。そこで本研究では,プロパゲーションに基づくビデオ編集のトレーニングパイプラインであるPropFlyを提案する。特にPropFlyでは,中間雑音のある潜伏音の1段階のクリーン潜伏音推定手法を用いて,低CFG(source)と高CFG(edited)の多種多様な潜伏音の合成を行う。ソースラテントはビデオの構造情報として機能し、編集されたラテントは、学習伝播のためのターゲット変換を提供する。我々のパイプラインは、事前訓練されたVDMに付加された追加のアダプタで、Guidance-Modulated Flow Matching (GMFM)損失を通じて編集を伝播させることを可能にし、ターゲット変換を再現するためにモデルを誘導する。オンザフライの監視は、時間的一貫性と動的変換を学習するためのモデルを保証する。 PropFlyは様々なビデオ編集タスクにおいて最先端の手法よりも優れており,高品質な編集結果が得られている。

関連論文リスト

VIVA: VLM-Guided Instruction-Based Video Editing with Reward Optimization [31.89256250882701]
VIVAは命令ベースのビデオ編集のためのスケーラブルなフレームワークである。 VLM誘導符号化と報酬最適化を使用する。そこで本研究では,VIVAが最先端の手法よりも優れた命令処理,一般化,品質の編集を実現していることを示す。
論文参考訳（メタデータ） (2025-12-18T18:58:42Z)
CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。 CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文参考訳（メタデータ） (2025-11-26T07:27:11Z)
VALA: Learning Latent Anchors for Training-Free and Temporally Consistent [29.516179213427694]
本稿では,キーフレームを適応的に選択し,その潜在機能をセマンティックアンカーに圧縮し,一貫したビデオ編集を行う変分アライメントモジュールであるVALAを提案する。本手法はトレーニング不要なテキスト・画像ベースのビデオ編集モデルに完全に統合することができる。
論文参考訳（メタデータ） (2025-10-27T03:44:11Z)
Self-Attention Decomposition For Training Free Diffusion Editing [18.8152476816527]
制御可能性への重要なステップは、モデルの潜在表現における解釈可能な方向を特定することである。本研究では,拡散モデルの事前学習パラメータから直接意味的編集方向を導出する解析手法を提案する。
論文参考訳（メタデータ） (2025-10-26T12:22:56Z)
Learning an Image Editing Model without Image Editing Pairs [83.03646586929638]
最近の画像編集モデルは、自然言語編集の指示に従いながら印象的な成果を上げている。それらは、インプットとターゲットのペアの大きなデータセットによる教師付き微調整に依存している。現在の回避策は、既存のモデルのゼロショット機能を利用する合成トレーニングペアを使用する。ペア化されたデータを完全に不要にする新たなトレーニングパラダイムを提案する。
論文参考訳（メタデータ） (2025-10-16T17:59:57Z)
Ground-A-Video: Zero-shot Grounded Video Editing using Text-to-image Diffusion Models [65.268245109828]
Ground-A-Videoは、マルチ属性ビデオ編集のためのビデオからビデオへの変換フレームワークである。トレーニング不要な方法で、時間的に一貫した入力ビデオの編集を可能にする。実験と応用により、Ground-A-Videoのゼロショットキャパシティは、編集精度とフレームの整合性の観点から、他のベースライン手法よりも優れていることが示された。
論文参考訳（メタデータ） (2023-10-02T11:28:37Z)
Boost Video Frame Interpolation via Motion Adaptation [73.42573856943923]
ビデオフレーム(VFI)は、2つの連続するフレーム間の中間フレームを生成することを目的とした課題である。既存の学習ベースのVFI手法は大きな成功を収めたが、それでも限定的な一般化能力に悩まされている。テスト時に見えない動作に適応できる新しい最適化ベースのVFI法を提案する。
論文参考訳（メタデータ） (2023-06-24T10:44:02Z)
InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文参考訳（メタデータ） (2023-05-21T03:28:13Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Structure and Content-Guided Video Synthesis with Diffusion Models [13.464501385061032]
所望の出力の視覚的あるいはテキスト的記述に基づいて映像を編集する構造とコンテンツ誘導ビデオ拡散モデルを提案する。本モデルでは,新たなガイダンス手法により,時間的一貫性の明示的な制御を明らかにする画像と映像を共同で訓練する。
論文参考訳（メタデータ） (2023-02-06T18:50:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。