論文の概要: CamI2V: Camera-Controlled Image-to-Video Diffusion Model
- arxiv url: http://arxiv.org/abs/2410.15957v1
- Date: Mon, 21 Oct 2024 12:36:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:25.881411
- Title: CamI2V: Camera-Controlled Image-to-Video Diffusion Model
- Title(参考訳): CamI2V:カメラによる画像とビデオの拡散モデル
- Authors: Guangcong Zheng, Teng Li, Rui Jiang, Yehao Lu, Tao Wu, Xi Li,
- Abstract要約: 本稿では,明示的な物理的制約をモデル設計に統合する必要性を強調した。
ノイズ条件の新たな視点から,すべてのクロスフレーム関係をモデル化するためのエピポーラアテンションを提案する。
領域外画像への強い一般化を維持しつつ、RealEstate10K上でのカメラ制御性を25.5%向上させる。
- 参考スコア(独自算出の注目度): 11.762824216082508
- License:
- Abstract: Recently, camera pose, as a user-friendly and physics-related condition, has been introduced into text-to-video diffusion model for camera control. However, existing methods simply inject camera conditions through a side input. These approaches neglect the inherent physical knowledge of camera pose, resulting in imprecise camera control, inconsistencies, and also poor interpretability. In this paper, we emphasize the necessity of integrating explicit physical constraints into model design. Epipolar attention is proposed for modeling all cross-frame relationships from a novel perspective of noised condition. This ensures that features are aggregated from corresponding epipolar lines in all noised frames, overcoming the limitations of current attention mechanisms in tracking displaced features across frames, especially when features move significantly with the camera and become obscured by noise. Additionally, we introduce register tokens to handle cases without intersections between frames, commonly caused by rapid camera movements, dynamic objects, or occlusions. To support image-to-video, we propose the multiple guidance scale to allow for precise control for image, text, and camera, respectively. Furthermore, we establish a more robust and reproducible evaluation pipeline to solve the inaccuracy and instability of existing camera control measurement. We achieve a 25.5\% improvement in camera controllability on RealEstate10K while maintaining strong generalization to out-of-domain images. Only 24GB and 12GB are required for training and inference, respectively. We plan to release checkpoints, along with training and evaluation codes. Dynamic videos are best viewed at \url{https://zgctroy.github.io/CamI2V}.
- Abstract(参考訳): 近年,ユーザフレンドリで物理的な条件であるカメラポーズが,カメラ制御のためのテキスト・ビデオ拡散モデルに導入されている。
しかし、既存の方法は単にサイド入力によってカメラ条件を注入するだけである。
これらのアプローチは、カメラポーズの本質的な物理的知識を無視し、不正確なカメラ制御、不整合、そして解釈可能性の低下をもたらす。
本稿では,明示的な物理的制約をモデル設計に統合する必要性を強調した。
ノイズ条件の新たな視点から,すべてのクロスフレーム関係をモデル化するためのエピポーラアテンションを提案する。
これにより、全てのノイズフレームにおける対応するエピポーラ線から特徴が集約されることが保証され、特にカメラで大きく動き、ノイズによって見えなくなると、フレーム間の変位した特徴を追跡する際の現在の注意機構の限界を克服する。
さらに,高速カメラ,ダイナミックオブジェクト,あるいはオクルージョンによって引き起こされるフレーム間の交差のないケースを扱うために,レジスタトークンを導入している。
本稿では,画像とテキストとカメラの正確な制御を可能にするマルチガイダンス尺度を提案する。
さらに、既存のカメラ制御測定の不正確性と不安定性を解決するため、より堅牢で再現可能な評価パイプラインを構築した。
領域外画像への強い一般化を維持しつつ、RealEstate10K上でのカメラ制御性を25.5%向上させる。
トレーニングには24GBと12GBしか必要ありません。
トレーニングや評価コードとともに、チェックポイントをリリースする予定です。
ダイナミックビデオは \url{https://zgctroy.github.io/CamI2V} でよく見られる。
関連論文リスト
- RealCam-I2V: Real-World Image-to-Video Generation with Interactive Complex Camera Control [10.939379611590333]
RealCam-I2Vは拡散型ビデオ生成フレームワークである。
単分子距離深度推定を統合し、前処理ステップで3次元シーン再構成を確立する。
トレーニング中、再構成された3Dシーンは、絶対値に対するカメラパラメータのスケーリングを可能にする。
RealCam-I2Vは、RealEstate10Kおよびドメイン外画像の制御性とビデオ品質を大幅に改善する。
論文 参考訳(メタデータ) (2025-02-14T10:21:49Z) - FlexEvent: Event Camera Object Detection at Arbitrary Frequencies [45.82637829492951]
イベントカメラは、動的環境におけるリアルタイムの知覚に相容れないアドバンテージを提供する。
既存のイベントベースのオブジェクト検出方法は固定周波数パラダイムによって制限される。
任意の周波数で検出できる新しいイベントカメラオブジェクト検出フレームワークFlexEventを提案する。
論文 参考訳(メタデータ) (2024-12-09T17:57:14Z) - Latent-Reframe: Enabling Camera Control for Video Diffusion Model without Training [51.851390459940646]
我々は、微調整なしで事前訓練されたビデオ拡散モデルでカメラ制御が可能なLatent-Reframeを紹介した。
Latent-Reframeはサンプリング段階で動作し、オリジナルのモデル分布を維持しながら効率を維持する。
当社のアプローチでは,ビデオフレームの潜在コードを再設計し,タイムアウェアな点雲を通して入力カメラ軌跡と整合する。
論文 参考訳(メタデータ) (2024-12-08T18:59:54Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - DATAP-SfM: Dynamic-Aware Tracking Any Point for Robust Structure from Motion in the Wild [85.03973683867797]
本稿では,スムーズなカメラ軌跡を推定し,野生のカジュアルビデオのための高密度点雲を得るための,簡潔でエレガントでロバストなパイプラインを提案する。
提案手法は,複雑な動的課題シーンにおいても,カメラポーズ推定による最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-20T13:01:16Z) - Redundancy-Aware Camera Selection for Indoor Scene Neural Rendering [54.468355408388675]
カメラの空間的多様性と画像の意味的変動の両方を取り入れた類似度行列を構築した。
カメラ選択を最適化するために,多様性に基づくサンプリングアルゴリズムを適用した。
IndoorTrajという新しいデータセットも開発しています。仮想屋内環境で人間が捉えた、長くて複雑なカメラの動きが含まれています。
論文 参考訳(メタデータ) (2024-09-11T08:36:49Z) - VICAN: Very Efficient Calibration Algorithm for Large Camera Networks [49.17165360280794]
ポースグラフ最適化手法を拡張する新しい手法を提案する。
我々は、カメラを含む二部グラフ、オブジェクトの動的進化、各ステップにおけるカメラオブジェクト間の相対変換について考察する。
我々のフレームワークは従来のPGOソルバとの互換性を維持しているが、その有効性はカスタマイズされた最適化方式の恩恵を受けている。
論文 参考訳(メタデータ) (2024-03-25T17:47:03Z) - E2HQV: High-Quality Video Generation from Event Camera via
Theory-Inspired Model-Aided Deep Learning [53.63364311738552]
バイオインスパイアされたイベントカメラやダイナミックビジョンセンサーは、高時間分解能と高ダイナミックレンジでピクセルごとの明るさ変化(イベントストリームと呼ばれる)を捉えることができる。
イベントストリームを入力として取り出し、直感的な視覚化のために高品質なビデオフレームを生成する、イベント間ビデオ(E2V)ソリューションを求めている。
イベントから高品質なビデオフレームを生成するために設計された新しいE2VパラダイムであるtextbfE2HQVを提案する。
論文 参考訳(メタデータ) (2024-01-16T05:10:50Z) - Monitoring and Adapting the Physical State of a Camera for Autonomous
Vehicles [10.490646039938252]
本稿では,データおよび物理モデルに基づくカメラの汎用的・タスク指向型自己維持フレームワークを提案する。
このフレームワークを現実世界の地上車両に実装し、カメラが粗悪な状況に対応するためにパラメータを調整できることを実証する。
われわれのフレームワークは、カメラの健康状態を監視し維持するための実用的なソリューションを提供するだけでなく、より高度な問題に対処するための拡張の基盤としても機能する。
論文 参考訳(メタデータ) (2021-12-10T11:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。