論文の概要: ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation
- arxiv url: http://arxiv.org/abs/2603.09819v1
- Date: Tue, 10 Mar 2026 15:44:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.434174
- Title: ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation
- Title(参考訳): ConfCtrl:信頼を意識した補間によるビデオ拡散における精密カメラ制御の実現
- Authors: Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada,
- Abstract要約: ConfCtrlは、カメラ誘導拡散モデルが未確認領域を完了しながら所定のポーズに従うことを可能にする、自信に敏感なビデオフレームワークである。
実験により、ConfCtrlは幾何学的に整合性があり、視覚的に可視性のある新しいビューを生成し、大きな視点変化の下で隠蔽領域を効果的に再構築することを示した。
- 参考スコア(独自算出の注目度): 24.89894187462497
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address the challenge of novel view synthesis from only two input images under large viewpoint changes. Existing regression-based methods lack the capacity to reconstruct unseen regions, while camera-guided diffusion models often deviate from intended trajectories due to noisy point cloud projections or insufficient conditioning from camera poses. To address these issues, we propose ConfCtrl, a confidence-aware video interpolation framework that enables diffusion models to follow prescribed camera poses while completing unseen regions. ConfCtrl initializes the diffusion process by combining a confidence-weighted projected point cloud latent with noise as the conditioning input. It then applies a Kalman-inspired predict-update mechanism, treating the projected point cloud as a noisy measurement and using learned residual corrections to balance pose-driven predictions with noisy geometric observations. This allows the model to rely on reliable projections while down-weighting uncertain regions, yielding stable, geometry-aware generation. Experiments on multiple datasets show that ConfCtrl produces geometrically consistent and visually plausible novel views, effectively reconstructing occluded regions under large viewpoint changes.
- Abstract(参考訳): 大局的な視点変化下では2つの入力画像のみから新規なビュー合成の課題に対処する。
既存の回帰ベースの手法では、見えない領域を再構築する能力が欠けているが、カメラ誘導拡散モデルは、ノイズの多い点雲の投影やカメラのポーズからの条件付けが不十分なため、意図した軌道から逸脱することが多い。
これらの問題に対処するため, ConfCtrlを提案する。これは信頼を意識したビデオ補間フレームワークで, 拡散モデルが未確認領域を完了しながら所定のカメラポーズに従うことができる。
ConfCtrlは、信頼重み付き投影された点雲を条件入力としてノイズと組み合わせて拡散過程を初期化する。
次に、カルマンにインスパイアされた予測更新機構を適用し、投影された点雲をノイズ測定として扱い、学習された残差補正を用いてノイズ幾何学的な観測でポーズ駆動予測のバランスをとる。
これにより、モデルは信頼性のある射影に依存し、不確実な領域を低くし、安定した幾何認識の生成をもたらす。
複数のデータセットの実験により、ConfCtrlは幾何的に一貫性があり、視覚的に可視な新しいビューを生成し、大きな視点変化の下で隠蔽領域を効果的に再構築することを示した。
関連論文リスト
- GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - Cameras as Rays: Pose Estimation via Ray Diffusion [54.098613859015856]
カメラのポーズを推定することは3D再構成の基本的な課題であり、まばらにサンプリングされたビューを考えると依然として困難である。
本稿では,カメラを光束として扱うカメラポーズの分散表現を提案する。
提案手法は回帰法と拡散法の両方で,CO3Dのカメラポーズ推定における最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-22T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。