論文の概要: Taming Camera-Controlled Video Generation with Verifiable Geometry Reward
- arxiv url: http://arxiv.org/abs/2512.02870v1
- Date: Tue, 02 Dec 2025 15:33:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.948938
- Title: Taming Camera-Controlled Video Generation with Verifiable Geometry Reward
- Title(参考訳): 検証可能な幾何リワードを用いたカメラ制御ビデオ生成
- Authors: Zhaoqing Wang, Xiaobo Xia, Zhuolin Bie, Jinlin Liu, Dongdong Yu, Jia-Wang Bian, Changhu Wang,
- Abstract要約: 我々は、事前訓練されたビデオ生成器を正確なカメラ制御のために最適化するオンライン強化学習フレームワークを導入する。
生成されたビデオと参照ビデオの両方の3次元カメラ軌跡を推定し、各軌跡を短いセグメントに分割し、セグメントの相対的なポーズを計算する。
我々は、多彩な大振幅カメラの動きと、様々な主題のダイナミックスを持つシーンを特徴とする包括的データセットを構築した。
- 参考スコア(独自算出の注目度): 36.31658788083449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in video diffusion models have remarkably improved camera-controlled video generation, but most methods rely solely on supervised fine-tuning (SFT), leaving online reinforcement learning (RL) post-training largely underexplored. In this work, we introduce an online RL post-training framework that optimizes a pretrained video generator for precise camera control. To make RL effective in this setting, we design a verifiable geometry reward that delivers dense segment-level feedback to guide model optimization. Specifically, we estimate the 3D camera trajectories for both generated and reference videos, divide each trajectory into short segments, and compute segment-wise relative poses. The reward function then compares each generated-reference segment pair and assigns an alignment score as the reward signal, which helps alleviate reward sparsity and improve optimization efficiency. Moreover, we construct a comprehensive dataset featuring diverse large-amplitude camera motions and scenes with varied subject dynamics. Extensive experiments show that our online RL post-training clearly outperforms SFT baselines across multiple aspects, including camera-control accuracy, geometric consistency, and visual quality, demonstrating its superiority in advancing camera-controlled video generation.
- Abstract(参考訳): ビデオ拡散モデルの最近の進歩は、カメラ制御ビデオ生成を著しく改善しているが、ほとんどの手法は、教師付き微調整(SFT)のみに依存しており、オンライン強化学習(RL)は、ほとんど探索されていない。
本研究では,事前学習した映像生成装置を最適化し,正確なカメラ制御を行うオンラインRLポストトレーニングフレームワークを提案する。
この設定でRLを効果的にするために、モデルの最適化を導くために密度の高いセグメントレベルのフィードバックを提供する検証可能な幾何報酬を設計する。
具体的には、生成されたビデオと参照ビデオの両方の3次元カメラ軌跡を推定し、各軌跡を短いセグメントに分割し、セグメントの相対的なポーズを計算する。
次に、報酬関数は生成された参照セグメントペアを比較し、アライメントスコアを報酬信号として割り当て、報酬の分散を緩和し、最適化効率を向上させる。
さらに、多彩な大振幅カメラの動きと、様々な主題のダイナミックスを持つシーンを特徴とする包括的データセットを構築した。
我々のオンラインRLポストトレーニングは、カメラ制御精度、幾何整合性、視覚的品質など、さまざまな面でSFTベースラインよりも明らかに優れており、カメラ制御ビデオ生成の進歩においてその優位性を示している。
関連論文リスト
- WorldStereo: Bridging Camera-Guided Video Generation and Scene Reconstruction via 3D Geometric Memories [36.79437857022868]
WorldStereoは、カメラ誘導のビデオ生成と3D再構成を橋渡しする新しいフレームワークだ。
我々はWorldStereoが強力な世界モデルとして機能し,多種多様なシーン生成タスクと高忠実度3D結果に対処していることを示す。
論文 参考訳(メタデータ) (2026-03-02T16:36:56Z) - Beyond Inpainting: Unleash 3D Understanding for Precise Camera-Controlled Video Generation [21.084121261693365]
正確なカメラ制御性を備えたビデオ再レンダリングフレームワークであるDepthDirectorを提案する。
本手法は, カメラ制御ガイダンスとして, 鮮明な3次元映像から深度映像を活用することにより, 新規なカメラ軌道下での入力映像のダイナミックなシーンを忠実に再現することができる。
論文 参考訳(メタデータ) (2026-01-15T09:26:45Z) - Unified Camera Positional Encoding for Controlled Video Generation [48.5789182990001]
トランスフォーマーは、3D知覚、ビデオ生成、自律運転のための世界モデル、そしてAIを具体化するための普遍的なバックボーンとして登場した。
本稿では、6-DoFポーズ、内在性、レンズ歪みを含む完全なカメラ情報を統一する幾何学一貫性表現であるRelative Rayを紹介する。
システム的なトレーニングと評価を容易にするため,広い範囲のカメラモーションとレンズタイプをカバーする大規模なビデオデータセットを構築した。
論文 参考訳(メタデータ) (2025-12-08T07:34:01Z) - ReCamDriving: LiDAR-Free Camera-Controlled Novel Trajectory Video Generation [38.23100905961028]
ReCamDrivingは、ビジョンベースでカメラ制御されたノベル・トラジェクトリー・ビデオ生成フレームワークである。
本稿では,3DGSを用いたクロストラジェクトリデータキュレーション手法を提案する。
論文 参考訳(メタデータ) (2025-12-03T09:55:25Z) - EPiC: Efficient Video Camera Control Learning with Precise Anchor-Video Guidance [69.40274699401473]
本稿では,効率的なカメラ制御学習フレームワークであるEPiCを紹介する。
高価なカメラ軌跡アノテーションを使わずに高品質なアンカービデオを構築する。
EPiCはI2Vカメラ制御タスクに対してRealEstate10KとMiraDataのSOTA性能を達成する。
論文 参考訳(メタデータ) (2025-05-28T01:45:26Z) - ACT-R: Adaptive Camera Trajectories for Single View 3D Reconstruction [16.03389355810877]
多視点合成に適応的な視点計画法を導入する。
我々は3次元コヒーレンスを高めるために時間的一貫性を活用して一連のビューを生成する。
論文 参考訳(メタデータ) (2025-05-13T05:31:59Z) - Uni3C: Unifying Precisely 3D-Enhanced Camera and Human Motion Controls for Video Generation [73.73984727616198]
映像生成におけるカメラと人間の動きを正確に制御するための統合フレームワークUni3Cを提案する。
まず,フリーズビデオ生成バックボーンであるPCDControllerで学習したプラグイン・アンド・プレイ制御モジュールを提案する。
第2に,景観点雲とSMPL-X文字をシームレスに統合する推論フェーズの3次元ワールドガイダンスを提案する。
論文 参考訳(メタデータ) (2025-04-21T07:10:41Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z) - CRAYM: Neural Field Optimization via Camera RAY Matching [48.25100687172752]
マルチビュー画像からカメラポーズとニューラルフィールドのジョイント最適化にカメラレイマッチング(CRAYM)を導入する。
入力画像のキーポイントを通過するカメラ光に焦点をあてて、各光線最適化と一致した光線コヒーレンスを定式化する。
論文 参考訳(メタデータ) (2024-12-02T15:39:09Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。