Fugu-MT 論文翻訳(概要): TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

論文の概要: TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models

arxiv url: http://arxiv.org/abs/2503.05638v1
Date: Fri, 07 Mar 2025 17:57:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-10 19:13:15.098846
Title: TrajectoryCrafter: Redirecting Camera Trajectory for Monocular Videos via Diffusion Models
Title（参考訳）: TrajectoryCrafter: 拡散モデルによる単眼ビデオ用カメラ軌道のリダイレクト
Authors: Mark YU, Wenbo Hu, Jinbo Xing, Ying Shan,
Abstract要約: TrajectoryCrafterは、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチである。コンテンツ生成から決定論的視点変換を遠ざけることで,ユーザの特定したカメラトラジェクトリの正確な制御を実現する。
参考スコア（独自算出の注目度）: 33.219657261649324
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present TrajectoryCrafter, a novel approach to redirect camera trajectories for monocular videos. By disentangling deterministic view transformations from stochastic content generation, our method achieves precise control over user-specified camera trajectories. We propose a novel dual-stream conditional video diffusion model that concurrently integrates point cloud renders and source videos as conditions, ensuring accurate view transformations and coherent 4D content generation. Instead of leveraging scarce multi-view videos, we curate a hybrid training dataset combining web-scale monocular videos with static multi-view datasets, by our innovative double-reprojection strategy, significantly fostering robust generalization across diverse scenes. Extensive evaluations on multi-view and large-scale monocular videos demonstrate the superior performance of our method.
Abstract（参考訳）: 我々は、モノクロビデオのためのカメラトラジェクトリをリダイレクトする新しいアプローチであるTrjectoryCrafterを提案する。確率的コンテンツ生成から決定論的視点変換を分離することにより,ユーザの特定したカメラ軌跡の正確な制御を実現する。本稿では、ポイントクラウドレンダリングとソースビデオをコンディションとして同時に統合し、正確なビュー変換とコヒーレントな4Dコンテンツ生成を保証する、新しいデュアルストリーム条件付きビデオ拡散モデルを提案する。少ないマルチビュービデオを活用する代わりに、革新的なダブルリジェクション戦略により、Webスケールのモノクロビデオと静的なマルチビューデータセットを組み合わせたハイブリッドトレーニングデータセットをキュレートし、多様なシーンにわたる堅牢な一般化を著しく促進する。マルチビューおよび大規模モノクロビデオの広汎な評価は,本手法の優れた性能を示す。

関連論文リスト

Moaw: Unleashing Motion Awareness for Video Diffusion Models [71.34328578845721]
Moawは動画拡散モデルのための動き認識を解放するフレームワークである。我々は、映像から映像へのモダリティを、映像から映像への追跡へとシフトさせ、運動知覚のための拡散モデルを訓練する。次に、最強の動作情報をエンコードする特徴を識別する動きラベル付きデータセットを構築し、それらを構造的に同一の映像生成モデルに注入する。
論文参考訳（メタデータ） (2026-01-19T06:45:46Z)
Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。 1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文参考訳（メタデータ） (2025-12-18T20:03:05Z)
Virtually Being: Customizing Camera-Controllable Video Diffusion Models with Multi-View Performance Captures [18.241178853941623]
本稿では,映像拡散モデルにおける多視点キャラクタ一貫性と3Dカメラ制御の両立を可能にするフレームワークを提案する。我々は、このデータに基づいて、最先端のオープンソースビデオ拡散モデルを微調整し、強力なマルチビューID保存を提供する。私たちのフレームワークは、マルチオブジェクト生成を含む、仮想プロダクションのコア機能もサポートしています。
論文参考訳（メタデータ） (2025-10-16T00:20:57Z)
MV-Performer: Taming Video Diffusion Model for Faithful and Synchronized Multi-view Performer Synthesis [34.793258395288895]
モノクロフルボディキャプチャーから新しいビュービデオを作成するための革新的なフレームワークであるMV-Performerを提案する。 360度合成を実現するために、MVHumanNetデータセットを広範囲に活用し、情報伝達条件信号を取り込む。生成したビデオの同期を維持するために,多視点の人間中心ビデオ拡散モデルを提案する。
論文参考訳（メタデータ） (2025-10-08T16:24:22Z)
Improving Video Diffusion Transformer Training by Multi-Feature Fusion and Alignment from Self-Supervised Vision Encoders [59.98236644320787]
ビデオ拡散モデルの訓練は,映像生成装置の中間的特徴と事前学習された視覚エンコーダの特徴表現とを整合させることで有用であることを示す。本稿では,ビデオ拡散モデルトレーニングに統合された新しい多機能融合アライメント方法を提供するAlign4Genを提案する。
論文参考訳（メタデータ） (2025-09-11T15:39:27Z)
Vid-CamEdit: Video Camera Trajectory Editing with Generative Rendering from Estimated Geometry [41.904066758259624]
ビデオカメラトラジェクトリ編集のための新しいフレームワークであるVid-CamEditを紹介する。我々のアプローチは、時間的に一貫した幾何を推定する2つのステップと、この幾何学によって導かれる生成的レンダリングからなる。
論文参考訳（メタデータ） (2025-06-16T17:02:47Z)
Zero4D: Training-Free 4D Video Generation From Single Video Using Off-the-Shelf Video Diffusion Model [52.0192865857058]
そこで,本研究では,市販ビデオ拡散モデルを利用して,単一入力ビデオから多視点ビデオを生成する4Dビデオ生成手法を提案する。本手法はトレーニング不要で,市販のビデオ拡散モデルを完全に活用し,マルチビュービデオ生成のための実用的で効果的なソリューションを提供する。
論文参考訳（メタデータ） (2025-03-28T17:14:48Z)
CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。動的シーンの生成を段階的に拡大するアプローチを採っている。
論文参考訳（メタデータ） (2025-03-13T17:42:01Z)
Reangle-A-Video: 4D Video Generation as Video-to-Video Translation [51.328567400947435]
単一の入力ビデオから同期化されたマルチビュービデオを生成するための統合フレームワークであるReangle-A-Videoを紹介する。提案手法は,多視点映像生成タスクをビデオ間翻訳として再設計し,公開画像とビデオ拡散先行情報を活用する。
論文参考訳（メタデータ） (2025-03-12T08:26:15Z)
Vchitect-2.0: Parallel Transformer for Scaling Up Video Diffusion Models [89.79067761383855]
Vchitect-2.0は、大規模テキスト・ビデオ生成のためにビデオ拡散モデルをスケールアップするために設計された並列トランスフォーマーアーキテクチャである。新たなマルチモーダル拡散ブロックを導入することで,テキスト記述と生成されたビデオフレームの整合性を実現する。メモリと計算のボトルネックを克服するために,メモリ効率のトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-14T21:53:11Z)
Adapting Image-to-Video Diffusion Models for Large-Motion Frame Interpolation [0.0]
本研究では,大動フレームに対して映像間モデルを適用するために設計された条件付きエンコーダを提案する。性能向上のために,デュアルブランチ特徴抽出器を統合し,クロスフレームアテンション機構を提案する。提案手法は,他の最先端手法と比較して,Fr'teche Video Distance測定において優れた性能を示す。
論文参考訳（メタデータ） (2024-12-22T14:49:55Z)
SynCamMaster: Synchronizing Multi-Camera Video Generation from Diverse Viewpoints [43.14498014617223]
マルチカメラビデオ生成のための事前訓練されたテキスト・ツー・ビデオモデルを強化するプラグイン・アンド・プレイ・モジュールを提案する。異なる視点における外観と幾何の整合性を維持するために,マルチビュー同期モジュールを導入する。提案手法は,新しい視点からビデオを再レンダリングするなど,興味をそそる拡張を可能にする。
論文参考訳（メタデータ） (2024-12-10T18:55:17Z)
Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。 Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文参考訳（メタデータ） (2024-12-08T18:59:54Z)
SVG: 3D Stereoscopic Video Generation via Denoising Frame Matrix [60.48666051245761]
本研究では,3次元立体映像生成のためのポーズフリーかつトレーニングフリーな手法を提案する。提案手法は, 推定ビデオ深度を用いた立体視ベースライン上のカメラビューにモノクロ映像をワープする。本研究では,映像の画質向上を図るために,非閉塞境界再注入方式を開発した。
論文参考訳（メタデータ） (2024-06-29T08:33:55Z)
Vivid-ZOO: Multi-View Video Generation with Diffusion Model [76.96449336578286]
新しい課題は、大量のキャプション付きマルチビュービデオの欠如と、そのような多次元分布をモデル化する複雑さにある。本稿では,テキストから動的3Dオブジェクトを中心に,高品質なマルチビュービデオを生成する拡散型パイプラインを提案する。
論文参考訳（メタデータ） (2024-06-12T21:44:04Z)
TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。 TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。 TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文参考訳（メタデータ） (2023-12-01T15:24:38Z)
Stable Video Diffusion: Scaling Latent Video Diffusion Models to Large Datasets [36.95521842177614]
本稿では,高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細・高精細映像・高精細映像・高精細・高精細・高精細・高精細・高精細・高精細我々は,テキスト・ツー・イメージ・プレトレーニング,ビデオ・プレトレーニング,高品質ビデオファインタニングの3つの異なる段階を同定し,評価する。
論文参考訳（メタデータ） (2023-11-25T22:28:38Z)
VIDM: Video Implicit Diffusion Models [75.90225524502759]
拡散モデルは、高品質で多様な画像の集合を合成するための強力な生成方法として登場した。本研究では,移動の効果を暗黙の条件でモデル化する拡散モデルに基づく映像生成手法を提案する。我々は,空間トランケーションのサンプリング,ロバストネスペナルティ,位置群正規化などの複数の戦略を提案することにより,生成されたビデオの品質を向上させる。
論文参考訳（メタデータ） (2022-12-01T02:58:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。