論文の概要: Taming Camera-Controlled Video Generation with Verifiable Geometry Reward
- arxiv url: http://arxiv.org/abs/2512.02870v1
- Date: Tue, 02 Dec 2025 15:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.948938
- Title: Taming Camera-Controlled Video Generation with Verifiable Geometry Reward
- Title(参考訳): 検証可能な幾何リワードを用いたカメラ制御ビデオ生成
- Authors: Zhaoqing Wang, Xiaobo Xia, Zhuolin Bie, Jinlin Liu, Dongdong Yu, Jia-Wang Bian, Changhu Wang,
- Abstract要約: 我々は、事前訓練されたビデオ生成器を正確なカメラ制御のために最適化するオンライン強化学習フレームワークを導入する。
生成されたビデオと参照ビデオの両方の3次元カメラ軌跡を推定し、各軌跡を短いセグメントに分割し、セグメントの相対的なポーズを計算する。
我々は、多彩な大振幅カメラの動きと、様々な主題のダイナミックスを持つシーンを特徴とする包括的データセットを構築した。
- 参考スコア(独自算出の注目度): 36.31658788083449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video diffusion models have remarkably improved camera-controlled video generation, but most methods rely solely on supervised fine-tuning (SFT), leaving online reinforcement learning (RL) post-training largely underexplored. In this work, we introduce an online RL post-training framework that optimizes a pretrained video generator for precise camera control. To make RL effective in this setting, we design a verifiable geometry reward that delivers dense segment-level feedback to guide model optimization. Specifically, we estimate the 3D camera trajectories for both generated and reference videos, divide each trajectory into short segments, and compute segment-wise relative poses. The reward function then compares each generated-reference segment pair and assigns an alignment score as the reward signal, which helps alleviate reward sparsity and improve optimization efficiency. Moreover, we construct a comprehensive dataset featuring diverse large-amplitude camera motions and scenes with varied subject dynamics. Extensive experiments show that our online RL post-training clearly outperforms SFT baselines across multiple aspects, including camera-control accuracy, geometric consistency, and visual quality, demonstrating its superiority in advancing camera-controlled video generation.
- Abstract(参考訳): ビデオ拡散モデルの最近の進歩は、カメラ制御ビデオ生成を著しく改善しているが、ほとんどの手法は、教師付き微調整(SFT)のみに依存しており、オンライン強化学習(RL)は、ほとんど探索されていない。
本研究では,事前学習した映像生成装置を最適化し,正確なカメラ制御を行うオンラインRLポストトレーニングフレームワークを提案する。
この設定でRLを効果的にするために、モデルの最適化を導くために密度の高いセグメントレベルのフィードバックを提供する検証可能な幾何報酬を設計する。
具体的には、生成されたビデオと参照ビデオの両方の3次元カメラ軌跡を推定し、各軌跡を短いセグメントに分割し、セグメントの相対的なポーズを計算する。
次に、報酬関数は生成された参照セグメントペアを比較し、アライメントスコアを報酬信号として割り当て、報酬の分散を緩和し、最適化効率を向上させる。
さらに、多彩な大振幅カメラの動きと、様々な主題のダイナミックスを持つシーンを特徴とする包括的データセットを構築した。
我々のオンラインRLポストトレーニングは、カメラ制御精度、幾何整合性、視覚的品質など、さまざまな面でSFTベースラインよりも明らかに優れており、カメラ制御ビデオ生成の進歩においてその優位性を示している。
関連論文リスト
- ACT-R: Adaptive Camera Trajectories for Single View 3D Reconstruction [16.03389355810877]
多視点合成に適応的な視点計画法を導入する。
我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
論文 参考訳(メタデータ) (2025-05-13T05:31:59Z) - Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [73.73984727616198]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文 参考訳(メタデータ) (2025-04-21T07:10:41Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - CRAYM: Neural Field Optimization via Camera RAY Matching [48.25100687172752]
マルチビュー画像からカメラポーズとニューラルフィールドのジョイント最適化にカメラレイマッチング(CRAYM)を導入する。
入力画像のキーポイントを通過するカメラ光に焦点をあてて、各光線最適化と一致した光線コヒーレンスを定式化する。
論文 参考訳(メタデータ) (2024-12-02T15:39:09Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。