論文の概要: StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation
- arxiv url: http://arxiv.org/abs/2605.21466v1
- Date: Wed, 20 May 2026 17:52:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.826904
- Title: StreamGVE: Training-Free Video Editing via Few-Step Streaming Video Generation
- Title(参考訳): StreamGVE:Few-Stepストリーミングビデオ生成によるトレーニング不要のビデオ編集
- Authors: Guanlong Jiao, Chenyangguang Zhang, Jia Jun Cheng Xian, Zewei Zhang, Renjie Liao,
- Abstract要約: ビデオ編集のためのストリーム生成に基づくビデオ編集(StreamGVE)を提案する。
ソース・ビデオ条件をシームレスに注入しながら、数ステップのサンプリングを保存します。
実効性があり、堅牢で、様々なモデルにまたがって一般化可能である。
- 参考スコア(独自算出の注目度): 17.213225933290833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although existing video editing methods are generally feasible, they often require many costly iterations and still struggle to deliver high-quality yet satisfying editing results. We attribute this limitation to the prevalent data-to-data paradigm, which is less compatible with modern generative models than noise-to-data generation. To address this gap, we revisit video editing from a noise-to-data perspective and propose Streaming-Generation-based Video Editing (StreamGVE), which preserves few-step sampling while seamlessly injecting source-video conditions. Built on pre-trained streaming generation models, StreamGVE introduces dual-branch fast sampling with a self-attention bridge and cross-attention grounding/boosting to satisfy both sampling and conditioning requirements. We further propose source-oriented guidance to improve target-generation quality, and a visual prompting strategy to enhance editing flexibility and practicality. The method is effective, robust, and generalizable across different models. Extensive experiments on diverse video editing tasks show that StreamGVE consistently outperforms existing approaches, even in few-step settings with minimal time cost.
- Abstract(参考訳): 既存のビデオ編集手法は一般的に実現可能であるが、多くのコストのかかるイテレーションを必要とすることが多く、高品質で満足できる編集結果の提供に苦慮している。
この制限は、ノイズ・トゥ・データ生成よりも現代的な生成モデルとの互換性が低い、一般的なデータ・ツー・データパラダイムに起因している。
このギャップに対処するために、ノイズ・ツー・データの観点からビデオ編集を再考し、ストリーム生成に基づくビデオ編集(StreamGVE)を提案する。
事前トレーニングされたストリーミング生成モデルに基づいて構築されたStreamGVEは、サンプリングとコンディショニングの両方の要件を満たすために、自己アテンションブリッジとクロスアテンショングラウンド/ブースティングを備えたデュアルブランチ高速サンプリングを導入している。
さらに、ターゲット生成品質を改善するためのソース指向ガイダンスと、編集の柔軟性と実用性を高めるための視覚的プロンプト戦略を提案する。
この方法は効率的で堅牢で、様々なモデルにまたがって一般化可能である。
多様なビデオ編集タスクに関する大規模な実験は、StreamGVEが最小の時間コストで数ステップの設定であっても、既存のアプローチを一貫して上回っていることを示している。
関連論文リスト
- LIVE: Leveraging Image Manipulation Priors for Instruction-based Video Editing [45.1196749483108]
我々は,大規模で高品質な画像編集データをビデオデータセットとともに活用し,編集能力を増強する共同トレーニングフレームワークであるLIVEを提案する。
フレームワイドなトークンノイズ戦略を導入し、特定のフレームの潜伏を推論トークンとして扱い、大規模な事前学習ビデオ生成モデルを活用して、妥当な時間変換を生成する。
画像編集に多いが、既存のビデオデータセットでは不十分な60以上の課題を含む総合的な評価ベンチマークをキュレートする。
論文 参考訳(メタデータ) (2026-04-18T15:09:01Z) - VDOT: Efficient Unified Video Creation via Optimal Transport Distillation [70.02065520468726]
本稿では,VDOT という名前の効率的な統合ビデオ生成モデルを提案する。
我々は,実測値分布と偽測値分布の差分を最適化するために,新しい計算最適輸送(OT)技術を用いる。
統合ビデオ生成モデルの訓練を支援するため,ビデオデータアノテーションとフィルタリングのための完全自動パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-07T11:31:00Z) - FADE: Frequency-Aware Diffusion Model Factorization for Video Editing [34.887298437323295]
FADEはトレーニングなしだが、非常に効果的なビデオ編集手法である。
本稿では,各コンポーネントの役割を最適化するための因子化戦略を提案する。
実世界のビデオ実験により,我々の手法は高品質で現実的で時間的に整合した編集結果を一貫して提供することを示した。
論文 参考訳(メタデータ) (2025-06-06T10:00:39Z) - DAPE: Dual-Stage Parameter-Efficient Fine-Tuning for Consistent Video Editing with Diffusion Models [1.972901110298768]
高品質で費用対効果の高い2段階パラメーター効率なビデオ編集のための微調整フレームワークであるDAPEを提案する。
最初の段階では、生成したビデオの時間的一貫性を高めるための効率的なノルムチューニング法を設計する。
第2ステージでは視覚的品質を改善するための視覚フレンドリなアダプタが導入されている。
論文 参考訳(メタデータ) (2025-05-11T17:08:50Z) - SF-V: Single Forward Video Generation Model [57.292575082410785]
そこで本稿では,単段階ビデオ生成モデルを得るための新しい手法を提案する。
実験により,提案手法は計算オーバーヘッドを大幅に低減した合成ビデオの競合生成品質を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:58:27Z) - AnimateLCM: Computation-Efficient Personalized Style Video Generation without Personalized Video Data [45.20627288830823]
同様のサイズのビデオ拡散モデルの必要な生成時間を25秒から1秒程度に短縮する。
この手法の有効性は、二重レベルデカップリング学習アプローチにある。
論文 参考訳(メタデータ) (2024-02-01T16:58:11Z) - FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling [85.60543452539076]
既存のビデオ生成モデルは、典型的には限られた数のフレームで訓練されており、推論中に高忠実度長ビデオを生成することができない。
本研究では,複数のテキストに条件付けされた長編ビデオを生成するためのテキスト駆動能力の拡張の可能性について検討する。
我々は,事前学習したビデオ拡散モデルの生成能力を高めるため,チューニング不要かつ時間効率のパラダイムであるFreeNoiseを提案する。
論文 参考訳(メタデータ) (2023-10-23T17:59:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。