論文の概要: TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.05638v1
- Date: Fri, 07 Mar 2025 17:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:23:11.302459
- Title: TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
- Title(参考訳): TrajectoryCrafter: 拡散モデルによる単眼ビデオ用カメラ軌道のリダイレクト
- Authors: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan,
- Abstract要約: TrajectoryCrafterは、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチである。
コンテンツ生成から決定論的視点変換を遠ざけることで,ユーザの特定したカメラトラジェクトリの正確な制御を実現する。
- 参考スコア(独自算出の注目度): 33.219657261649324
- License:
- Abstract: We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.
- Abstract(参考訳): 我々は、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチであるTrjectoryCrafterを提案する。
確率的コンテンツ生成から決定論的視点変換を分離することにより,ユーザの特定したカメラ軌跡の正確な制御を実現する。
本稿では、ポイントクラウドレンダリングとソースビデオをコンディションとして同時に統合し、正確なビュー変換とコヒーレントな4Dコンテンツ生成を保証する、新しいデュアルストリーム条件付きビデオ拡散モデルを提案する。
少ないマルチビュービデオを活用する代わりに、革新的なダブルリジェクション戦略により、Webスケールのモノクロビデオと静的なマルチビューデータセットを組み合わせたハイブリッドトレーニングデータセットをキュレートし、多様なシーンにわたる堅牢な一般化を著しく促進する。
マルチビューおよび大規模モノクロビデオの広汎な評価は,本手法の優れた性能を示す。
関連論文リスト
- CatV2TON: Taming Diffusion Transformers for Vision-Based Virtual Try-On with Temporal Concatenation [75.10635392993748]
視覚に基づく仮想試行(V2TON)方式であるCatV2TONを導入する。
CatV2TONは、衣服と人物の入力を時間的に結合し、画像とビデオのデータセットを混合してトレーニングすることにより、堅牢な試着性能を実現する。
また、背面フレームをフィルタリングし、3Dマスクのスムース化を施した精巧なビデオ試行データセットViViD-Sを提案する。
論文 参考訳(メタデータ) (2025-01-20T08:09:36Z) - Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。
新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。
メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-14T21:53:11Z) - Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation [0.0]
本研究では,大動フレームに対して映像間モデルを適用するために設計された条件付きエンコーダを提案する。
性能向上のために,デュアルブランチ特徴抽出器を統合し,クロスフレームアテンション機構を提案する。
提案手法は,他の最先端手法と比較して,Fr'teche Video Distance測定において優れた性能を示す。
論文 参考訳(メタデータ) (2024-12-22T14:49:55Z) - SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。
異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。
提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文 参考訳(メタデータ) (2024-12-10T18:55:17Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。
提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。
本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文 参考訳(メタデータ) (2024-06-29T08:33:55Z) - Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。
本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文 参考訳(メタデータ) (2024-06-12T21:44:04Z) - Ctrl-V: Higher Fidelity Video Generation with Bounding-Box Controlled Object Motion [8.068194154084967]
本稿では,現実的な映像合成において,物体の動きを正確に制御する方法を提案する。
これを実現するために,バウンディングボックスを用いてオブジェクトの動きを制御し,この制御を画素空間内の2Dまたは3Dボックスのレンダリングに拡張する。
我々の手法であるCtrl-Vは、修正および微調整された安定ビデオ拡散(SVD)モデルを利用して、軌跡生成と映像生成の両方を解決する。
論文 参考訳(メタデータ) (2024-06-09T03:44:35Z) - Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large
Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細
我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文 参考訳(メタデータ) (2023-11-25T22:28:38Z) - VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。
本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。
我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文 参考訳(メタデータ) (2022-12-01T02:58:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。