論文の概要: Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training
- arxiv url: http://arxiv.org/abs/2412.06029v1
- Date: Sun, 08 Dec 2024 18:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:56.557347
- Title: Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training
- Title(参考訳): レイト・リフレーム:訓練を伴わないビデオ拡散モデルのためのカメラ制御の実現
- Authors: Zhenghong Zhou, Jie An, Jiebo Luo,
- Abstract要約: 我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
- 参考スコア(独自算出の注目度): 51.851390459940646
- License:
- Abstract: Precise camera pose control is crucial for video generation with diffusion models. Existing methods require fine-tuning with additional datasets containing paired videos and camera pose annotations, which are both data-intensive and computationally costly, and can disrupt the pre-trained model distribution. We introduce Latent-Reframe, which enables camera control in a pre-trained video diffusion model without fine-tuning. Unlike existing methods, Latent-Reframe operates during the sampling stage, maintaining efficiency while preserving the original model distribution. Our approach reframes the latent code of video frames to align with the input camera trajectory through time-aware point clouds. Latent code inpainting and harmonization then refine the model latent space, ensuring high-quality video generation. Experimental results demonstrate that Latent-Reframe achieves comparable or superior camera control precision and video quality to training-based methods, without the need for fine-tuning on additional datasets.
- Abstract(参考訳): 拡散モデルを用いたビデオ生成には,精密カメラのポーズ制御が不可欠である。
既存の手法では、ペア化されたビデオとカメラのポーズアノテーションを含む追加のデータセットを微調整する必要がある。
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
既存の方法とは異なり、Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
潜時符号の塗装と調和により、モデル潜時空間が洗練され、高品質なビデオ生成が保証される。
実験結果から、Latent-Reframeは、追加データセットの微調整を必要とせず、トレーニングベースの手法に匹敵する、あるいは優れたカメラ制御精度とビデオ品質を実現することが示された。
関連論文リスト
- Repurposing Pre-trained Video Diffusion Models for Event-based Video Interpolation [20.689304579898728]
イベントベースのビデオフレーム補間(EVFI)は、動き誘導としてスパースで高時間分解能なイベント計測を使用する。
我々は、インターネット規模のデータセットで訓練された事前学習ビデオ拡散モデルをEVFIに適用する。
提案手法は既存の手法より優れており,カメラ全体の一般化が従来の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-12-10T18:55:30Z) - SG-I2V: Self-Guided Trajectory Control in Image-to-Video Generation [22.693060144042196]
画像からビデオへ生成する方法は、印象的な、写真リアリスティックな品質を実現した。
オブジェクトの動きやカメラの動きなど、生成されたビデオの特定の要素を調整することは、しばしば試行錯誤の面倒なプロセスである。
本稿では,自己誘導画像生成のためのフレームワークを提案する。
我々のゼロショット法は教師なしベースラインよりも優れており、教師付きモデルでパフォーマンスギャップを狭めている。
論文 参考訳(メタデータ) (2024-11-07T18:56:11Z) - Generative Inbetweening: Adapting Image-to-Video Models for Keyframe Interpolation [60.27691946892796]
本稿では,一対の入力キーフレーム間のコヒーレントな動きで映像列を生成する手法を提案する。
実験の結果,本手法は既存の拡散法と従来のフレーム技術の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-08-27T17:57:14Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - ZeroSmooth: Training-free Diffuser Adaptation for High Frame Rate Video Generation [81.90265212988844]
本稿では,プラグイン・アンド・プレイ方式で生成ビデオモデルを作成するためのトレーニング不要なビデオ手法を提案する。
我々は,映像モデルを隠れ状態補正モジュールを備えた自己カスケード映像拡散モデルに変換する。
私たちのトレーニングフリーの手法は、巨大な計算リソースと大規模データセットによってサポートされているトレーニングモデルにさえ匹敵するものです。
論文 参考訳(メタデータ) (2024-06-03T00:31:13Z) - Camera clustering for scalable stream-based active distillation [12.730493079013456]
ビデオオブジェクト検出のための効率的な軽量モデルを構築するために,スケーラブルなフレームワークを提案する。
ビデオストリームからのトレーニング画像の理想的な選択方法と,多数のカメラ間でのモデル共有の有効性について検討する。
論文 参考訳(メタデータ) (2024-04-16T09:28:54Z) - Video Demoireing with Relation-Based Temporal Consistency [68.20281109859998]
カラー歪みのように見えるモアレパターンは、デジタルカメラでスクリーンを撮影する際に、画像と映像の画質を著しく劣化させる。
我々は、このような望ましくないモアレパターンをビデオで除去する方法を研究している。
論文 参考訳(メタデータ) (2022-04-06T17:45:38Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。