論文の概要: ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
- arxiv url: http://arxiv.org/abs/2511.19827v1
- Date: Tue, 25 Nov 2025 01:38:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.223558
- Title: ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding
- Title(参考訳): ReDirector:ロータリーカメラのエンコードでどんな長編ビデオでも撮れる
- Authors: Byeongjun Park, Byung-Hoon Kim, Hyungjin Chung, Jong Chul Ye,
- Abstract要約: ReDirectorは、動的にキャプチャされた可変長のカメラ制御ビデオ生成方法である。
ロータリーカメラを紹介します。
RoCE - RoPEとリテイクコンディショニングカメラを統合したカメラ。
提案手法は, 分布外カメラトラジェクトリとビデオ長を一般化し, 動的物体の局所化と静的背景保存を改善した。
- 参考スコア(独自算出の注目度): 60.574308105414026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present ReDirector, a novel camera-controlled video retake generation method for dynamically captured variable-length videos. In particular, we rectify a common misuse of RoPE in previous works by aligning the spatiotemporal positions of the input video and the target retake. Moreover, we introduce Rotary Camera Encoding (RoCE), a camera-conditioned RoPE phase shift that captures and integrates multi-view relationships within and across the input and target videos. By integrating camera conditions into RoPE, our method generalizes to out-of-distribution camera trajectories and video lengths, yielding improved dynamic object localization and static background preservation. Extensive experiments further demonstrate significant improvements in camera controllability, geometric consistency, and video quality across various trajectories and lengths.
- Abstract(参考訳): 本稿では,動的にキャプチャされた可変長ビデオのための新しいカメラ制御ビデオレテイク生成手法であるReDirectorを提案する。
特に,従来の作品におけるRoPEの一般的な誤用を,入力ビデオの時空間的位置とターゲット再取り込みを一致させて修正する。
さらに,ロータリーカメラ符号化(Rotary Camera Encoding, RoCE)を導入し,カメラコンディショニングされたRoPE位相シフトにより,入力ビデオとターゲットビデオ間のマルチビュー関係をキャプチャし,統合する。
カメラ条件をRoPEに組み込むことで、カメラ外軌跡やビデオの長さを一般化し、動的物体の局所化と静的背景保存を改善した。
広範囲な実験により、様々な軌道や長さにわたってカメラの制御性、幾何的整合性、ビデオ品質が大幅に改善された。
関連論文リスト
- GenCompositor: Generative Video Compositing with Diffusion Transformer [68.00271033575736]
伝統的なパイプラインは、労働力の集中と専門家の協力を必要とし、生産サイクルが長くなり、高い人的コストがかかる。
本課題は, 対象映像に対して, 前景映像の同一性や動作情報を対話的に注入することである。
実験により,本手法は生成ビデオ合成を効果的に実現し,忠実度と一貫性の既存のソリューションよりも優れることが示された。
論文 参考訳(メタデータ) (2025-09-02T16:10:13Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - VRoPE: Rotary Position Embedding for Video Large Language Models [20.76019756946152]
テキストベース大規模言語モデル(LLM)における位置埋め込み(RoPE)の性能は高い。
しかし、ビデオフレームの複雑な構造のため、ビデオに拡張することは依然として課題だ。
ビデオLLMに適した新しい位置符号化法である位置ロータリー埋め込み(VRoPE)を提案する。
論文 参考訳(メタデータ) (2025-02-17T10:53:57Z) - CPA: Camera-pose-awareness Diffusion Transformer for Video Generation [15.512186399114999]
CPAはテキスト・ビデオ生成のアプローチであり、テキスト・ビジュアル・空間的条件を統合している。
トラジェクトリの整合性とオブジェクトの整合性において最適な性能を保ちながら、長いビデオ生成のためのLDM法よりも優れる。
論文 参考訳(メタデータ) (2024-12-02T12:10:00Z) - Cavia: Camera-controllable Multi-view Video Diffusion with View-Integrated Attention [62.2447324481159]
Caviaはカメラ制御可能なマルチビュービデオ生成のための新しいフレームワークである。
我々のフレームワークは、空間的および時間的注意モジュールを拡張し、視点と時間的一貫性を改善します。
Caviaは、ユーザーが物体の動きを取得しながら、異なるカメラの動きを特定できる最初の製品だ。
論文 参考訳(メタデータ) (2024-10-14T17:46:32Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。