論文の概要: ReRoPE: Repurposing RoPE for Relative Camera Control
- arxiv url: http://arxiv.org/abs/2602.08068v1
- Date: Sun, 08 Feb 2026 17:49:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.9666
- Title: ReRoPE: Repurposing RoPE for Relative Camera Control
- Title(参考訳): ReRoPE:リレーショナルカメラ制御のためのRoPEの再利用
- Authors: Chunyang Li, Yuanbo Yang, Jiahao Shao, Hongyu Zhou, Katja Schwarz, Yiyi Liao,
- Abstract要約: 本稿では、相対カメラ情報を事前学習したビデオ拡散モデルに組み込むプラグイン・アンド・プレイフレームワークReRoPEを紹介する。
我々は,カメラ制御精度と映像忠実度の観点から,映像対映像(I2V)タスクと映像対映像(V2V)タスクの両方について評価を行った。
- 参考スコア(独自算出の注目度): 36.225344172088235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video generation with controllable camera viewpoints is essential for applications such as interactive content creation, gaming, and simulation. Existing methods typically adapt pre-trained video models using camera poses relative to a fixed reference, e.g., the first frame. However, these encodings lack shift-invariance, often leading to poor generalization and accumulated drift. While relative camera pose embeddings defined between arbitrary view pairs offer a more robust alternative, integrating them into pre-trained video diffusion models without prohibitive training costs or architectural changes remains challenging. We introduce ReRoPE, a plug-and-play framework that incorporates relative camera information into pre-trained video diffusion models without compromising their generation capability. Our approach is based on the insight that Rotary Positional Embeddings (RoPE) in existing models underutilize their full spectral bandwidth, particularly in the low-frequency components. By seamlessly injecting relative camera pose information into these underutilized bands, ReRoPE achieves precise control while preserving strong pre-trained generative priors. We evaluate our method on both image-to-video (I2V) and video-to-video (V2V) tasks in terms of camera control accuracy and visual fidelity. Our results demonstrate that ReRoPE offers a training-efficient path toward controllable, high-fidelity video generation. See project page for more results: https://sisyphe-lee.github.io/ReRoPE/
- Abstract(参考訳): インタラクティブなコンテンツ作成、ゲーム、シミュレーションなどのアプリケーションには、制御可能なカメラ視点によるビデオ生成が不可欠である。
既存の方法は、通常、固定参照(例えば、最初のフレーム)に対するカメラポーズを使用して、事前訓練されたビデオモデルに適応する。
しかし、これらの符号化にはシフト不変性がなく、しばしば一般化が貧弱でドリフトが蓄積される。
任意のビューペア間で定義された相対的なカメラポーズの埋め込みは、より堅牢な代替手段を提供するが、トレーニングコストの禁止やアーキテクチャの変更を伴わずに、事前トレーニングされたビデオ拡散モデルに統合することは、依然として困難である。
ReRoPEは、相対カメラ情報を学習済みの映像拡散モデルに組み込むプラグイン・アンド・プレイフレームワークであり、生成能力を損なうことなく導入する。
我々のアプローチは、既存のモデルにおけるロータリー位置埋め込み(RoPE)が、特に低周波成分において、その全スペクトル帯域を弱めているという知見に基づいている。
相対カメラのポーズ情報をこれらの未使用バンドにシームレスに注入することにより、ReRoPEは、強い事前学習された生成前を保ちながら正確な制御を行う。
我々は,カメラ制御精度と映像忠実度の観点から,映像対映像(I2V)タスクと映像対映像(V2V)タスクの両方について評価を行った。
その結果、ReRoPEは、制御可能な高忠実度ビデオ生成に向けた訓練効率の高いパスを提供することを示した。
さらなる結果については、プロジェクトページを参照してください。
関連論文リスト
- CETCAM: Camera-Controllable Video Generation via Consistent and Extensible Tokenization [32.42754288735215]
CETCAMはカメラ制御可能なビデオ生成フレームワークである。
一貫性のあるトークン化スキームによって、カメラアノテーションは不要になる。
多様な生のビデオデータから堅牢なカメラ制御性を学び、高忠実度データセットを使用してきめ細かい視覚的品質を洗練する。
論文 参考訳(メタデータ) (2025-12-22T04:21:39Z) - Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - ReDirector: Creating Any-Length Video Retakes with Rotary Camera Encoding [60.574308105414026]
ReDirectorは、動的にキャプチャされた可変長のカメラ制御ビデオ生成方法である。
ロータリーカメラを紹介します。
RoCE - RoPEとリテイクコンディショニングカメラを統合したカメラ。
提案手法は, 分布外カメラトラジェクトリとビデオ長を一般化し, 動的物体の局所化と静的背景保存を改善した。
論文 参考訳(メタデータ) (2025-11-25T01:38:56Z) - EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance [69.40274699401473]
本稿では,効率的なカメラ制御学習フレームワークであるEPiCを紹介する。
高価なカメラ軌跡アノテーションを使わずに高品質なアンカービデオを構築する。
EPiCはI2Vカメラ制御タスクに対してRealEstate10KとMiraDataのSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-28T01:45:26Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - CamI2V: Camera-Controlled Image-to-Video Diffusion Model [11.762824216082508]
統合カメラポーズは、ビデオ拡散モデルにおけるユーザフレンドリーで物理インフォームド条件であり、正確なカメラ制御を可能にする。
重要な課題の1つは、幾何学的整合性とカメラ制御性を高めるために、ノイズの多いクロスフレーム相互作用を効果的にモデル化することである。
我々は,条件の品質と不確実性を低減し,ノイズのあるクロスフレーム特徴をノイズのある状態の形で解釈する能力とを革新的に関連付ける。
論文 参考訳(メタデータ) (2024-10-21T12:36:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。