論文の概要: CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback
- arxiv url: http://arxiv.org/abs/2601.16214v1
- Date: Thu, 22 Jan 2026 18:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.703646
- Title: CamPilot: Improving Camera Control in Video Diffusion Model with Efficient Camera Reward Feedback
- Title(参考訳): CamPilot: 効率的なカメラリワードフィードバックによるビデオ拡散モデルにおけるカメラ制御の改善
- Authors: Wenhang Ge, Guibao Shen, Jiawei Feng, Luozhou Wang, Hao Lu, Xingye Tian, Xin Tao, Ying-Cong Chen,
- Abstract要約: 我々は、Reward Feedback Learningを構築し、カメラの制御性をさらに向上することを目指している。
現在の報酬モデルには、ビデオカメラのアライメントを評価する能力がない。
本稿では,映像遅延を3次元表現にデコードして報酬量子化を行う,効率的なカメラ対応3Dデコーダを提案する。
- 参考スコア(独自算出の注目度): 43.174121093566264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in camera-controlled video diffusion models have significantly improved video-camera alignment. However, the camera controllability still remains limited. In this work, we build upon Reward Feedback Learning and aim to further improve camera controllability. However, directly borrowing existing ReFL approaches faces several challenges. First, current reward models lack the capacity to assess video-camera alignment. Second, decoding latent into RGB videos for reward computation introduces substantial computational overhead. Third, 3D geometric information is typically neglected during video decoding. To address these limitations, we introduce an efficient camera-aware 3D decoder that decodes video latent into 3D representations for reward quantization. Specifically, video latent along with the camera pose are decoded into 3D Gaussians. In this process, the camera pose not only acts as input, but also serves as a projection parameter. Misalignment between the video latent and camera pose will cause geometric distortions in the 3D structure, resulting in blurry renderings. Based on this property, we explicitly optimize pixel-level consistency between the rendered novel views and ground-truth ones as reward. To accommodate the stochastic nature, we further introduce a visibility term that selectively supervises only deterministic regions derived via geometric warping. Extensive experiments conducted on RealEstate10K and WorldScore benchmarks demonstrate the effectiveness of our proposed method. Project page: \href{https://a-bigbao.github.io/CamPilot/}{CamPilot Page}.
- Abstract(参考訳): カメラ制御ビデオ拡散モデルの最近の進歩は、ビデオカメラのアライメントを大幅に改善した。
しかし、カメラの制御性はまだ限られている。
本研究は、Reward Feedback Learningに基づいて、カメラの制御性をさらに向上することを目的としている。
しかし、既存のReFLアプローチを直接借りることにはいくつかの課題がある。
第一に、現在の報酬モデルにはビデオカメラのアライメントを評価する能力がない。
第二に、報酬計算のためにラテントをRGBビデオに復号すると、かなりの計算オーバーヘッドが発生する。
第三に、3Dの幾何学的情報はビデオ復号時に無視されることが多い。
これらの制約に対処するために,ビデオラテントを報酬量子化のために3次元表現にデコードする,効率的なカメラ対応3Dデコーダを導入する。
具体的には、カメラのポーズとともにビデオラテントを3Dガウスにデコードする。
この過程で、カメラのポーズは入力として機能するだけでなく、投影パラメータとしても機能する。
ビデオラテントとカメラのポーズのミスは、3D構造に幾何学的な歪みをもたらし、ぼやけたレンダリングをもたらす。
この特性に基づいて、描画された新規ビューと接地トラスビューとの画素レベルの一貫性を報酬として明示的に最適化する。
確率的な性質を満たすために、幾何学的ワープによって導かれる決定論的領域のみを選択的に監督する可視的項を導入する。
RealEstate10K と WorldScore のベンチマークにより,提案手法の有効性を実証した。
プロジェクトページ: \href{https://a-bigbao.github.io/CamPilot/}{CamPilot Page}。
関連論文リスト
- Pixel-to-4D: Camera-Controlled Image-to-Video Generation with Dynamic 3D Gaussians [7.051077403685518]
人間は、1つの画像だけを与えられたシーンの将来のダイナミクスを予測するのに優れています。
この能力を模倣できるビデオ生成モデルは、インテリジェントシステムにとって不可欠なコンポーネントである。
最近のアプローチでは、単一画像条件のビデオ生成における時間的コヒーレンスと3次元の整合性が改善されている。
論文 参考訳(メタデータ) (2026-01-02T13:04:47Z) - GEN3C: 3D-Informed World-Consistent Video Generation with Precise Camera Control [88.90505842498823]
本稿では,正確なカメラ制御と時間的3次元一貫性を備えた生成ビデオモデルGEN3Cを提案する。
以上の結果から,従来の作業よりも精密なカメラ制御と,スパースビューの新規ビュー合成の最先端結果が得られた。
論文 参考訳(メタデータ) (2025-03-05T18:59:50Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。