論文の概要: Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models
- arxiv url: http://arxiv.org/abs/2506.07177v1
- Date: Sun, 08 Jun 2025 14:54:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.701638
- Title: Frame Guidance: Training-Free Guidance for Frame-Level Control in Video Diffusion Models
- Title(参考訳): フレームガイダンス:ビデオ拡散モデルにおけるフレームレベル制御のための訓練不要ガイダンス
- Authors: Sangwon Jang, Taekyung Ki, Jaehyeong Jo, Jaehong Yoon, Soo Ye Kim, Zhe Lin, Sung Ju Hwang,
- Abstract要約: フレームレベル信号に基づく制御可能なビデオ生成のためのトレーニング不要ガイダンスであるFrame Guidanceを提案する。
そこで本研究では,メモリ使用量を大幅に削減する簡易な潜時処理手法を提案する。
我々は,グローバルコヒーレントビデオ生成のために設計された新しい潜在最適化手法を適用した。
- 参考スコア(独自算出の注目度): 59.62564091684881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advancements in diffusion models have significantly improved video quality, directing attention to fine-grained controllability. However, many existing methods depend on fine-tuning large-scale video models for specific tasks, which becomes increasingly impractical as model sizes continue to grow. In this work, we present Frame Guidance, a training-free guidance for controllable video generation based on frame-level signals, such as keyframes, style reference images, sketches, or depth maps. For practical training-free guidance, we propose a simple latent processing method that dramatically reduces memory usage, and apply a novel latent optimization strategy designed for globally coherent video generation. Frame Guidance enables effective control across diverse tasks, including keyframe guidance, stylization, and looping, without any training, compatible with any video models. Experimental results show that Frame Guidance can produce high-quality controlled videos for a wide range of tasks and input signals.
- Abstract(参考訳): 拡散モデルの進歩は映像品質を著しく改善し、微粒な制御性に注意を向けた。
しかし、既存の多くの手法は、特定のタスクのための微調整された大規模ビデオモデルに依存しており、モデルのサイズが拡大し続ければ、ますます非現実的になる。
本研究では,鍵フレーム,スタイル参照画像,スケッチ,深度マップなどのフレームレベル信号に基づく,制御可能な映像生成のためのトレーニング不要ガイダンスであるFrame Guidanceを提案する。
本研究では,メモリ使用量を大幅に削減する簡易な潜時処理手法を提案し,グローバルなコヒーレントビデオ生成のために設計された新しい潜時最適化手法を適用した。
Frame Guidanceは、キーフレームのガイダンス、スタイル化、ループ化など、あらゆるビデオモデルと互換性のない、さまざまなタスクを効果的に制御できる。
実験の結果,Frame Guidanceは様々なタスクや入力信号に対して高品質な制御ビデオを生成することができることがわかった。
関連論文リスト
- MotionBridge: Dynamic Video Inbetweening with Flexible Controls [29.029643539300434]
我々はMotionBridgeを紹介した。
トラジェクティブストローク、ビデオ編集マスク、ガイドピクセル、テキストビデオなど、柔軟なコントロールが可能だ。
このようなマルチモーダル制御は、よりダイナミックでカスタマイズ可能で、文脈的に正確な視覚的物語を可能にする。
論文 参考訳(メタデータ) (2024-12-17T18:59:33Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - UniMLVG: Unified Framework for Multi-view Long Video Generation with Comprehensive Control Capabilities for Autonomous Driving [18.189392365510848]
UniMLVGは、拡張ストリートマルチパースペクティブビデオを生成するために設計された統合フレームワークである。
FIDの48.2%、FVDの35.2%の改善を実現している。
論文 参考訳(メタデータ) (2024-12-06T08:27:53Z) - Optical-Flow Guided Prompt Optimization for Coherent Video Generation [51.430833518070145]
我々は,光フローによる映像生成プロセスをガイドするMotionPromptというフレームワークを提案する。
ランダムフレーム対に適用した訓練された識別器の勾配を用いて,逆サンプリングステップにおける学習可能なトークン埋め込みを最適化する。
提案手法により,生成したコンテンツの忠実さを損なうことなく,自然な動きのダイナミクスを忠実に反映した視覚的コヒーレントな映像シーケンスを生成することができる。
論文 参考訳(メタデータ) (2024-11-23T12:26:52Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - InstructVid2Vid: Controllable Video Editing with Natural Language Instructions [97.17047888215284]
InstructVid2Vidは、人間の言語命令でガイドされたビデオ編集のためのエンドツーエンドの拡散ベースの方法論である。
我々のアプローチは、自然言語ディレクティブによって案内される映像操作を強化し、サンプルごとの微調整や逆変換の必要性を排除します。
論文 参考訳(メタデータ) (2023-05-21T03:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。