論文の概要: ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation
- arxiv url: http://arxiv.org/abs/2605.06667v1
- Date: Thu, 07 May 2026 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:12.080743
- Title: ActCam: Zero-Shot Joint Camera and 3D Motion Control for Video Generation
- Title(参考訳): ActCam:ビデオ生成のためのゼロショットジョイントカメラと3Dモーションコントロール
- Authors: Omar El Khalifi, Thomas Rossi, Oscar Fossey, Thibault Fouque, Ulysse Mizrahi, Philip Torr, Ivan Laptev, Fabio Pizzati, Baptiste Bellot-Gurlet,
- Abstract要約: ActCamは、動画生成のためのゼロショット方式で、ドライブビデオから新しいシーンにキャラクタの動きを共同で転送する。
シーン深度とキャラクタポーズの条件付けを受け入れる事前訓練された画像間拡散モデルを構築した。
ActCamは、ポーズのみの制御や、他のポーズやカメラの手法と比較して、カメラの付着性や動きの忠実性を改善する。
- 参考スコア(独自算出の注目度): 34.51506212196978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: For artistic applications, video generation requires fine-grained control over both performance and cinematography, i.e., the actor's motion and the camera trajectory. We present ActCam, a zero-shot method for video generation that jointly transfers character motion from a driving video into a new scene and enables per-frame control of intrinsic and extrinsic camera parameters. ActCam builds on any pretrained image-to-video diffusion model that accepts conditioning in terms of scene depth and character pose. Given a source video with a moving character and a target camera motion, ActCam generates pose and depth conditions that remain geometrically consistent across frames. We then run a single sampling process with a two-phase conditioning schedule: early denoising steps condition on both pose and sparse depth to enforce scene structure, after which depth is dropped and pose-only guidance refines high-frequency details without over-constraining the generation. We evaluate ActCam on multiple benchmarks spanning diverse character motions and challenging viewpoint changes. We find that, compared to pose-only control and other pose and camera methods, ActCam improves camera adherence and motion fidelity, and is preferred in human evaluations, especially under large viewpoint changes. Our results highlight that careful camera-consistent conditioning and staged guidance can enable strong joint camera and motion control without training. Project page: https://elkhomar.github.io/actcam/.
- Abstract(参考訳): 芸術的応用においては、映像生成はパフォーマンスと撮影の両方、すなわち俳優の動きとカメラの軌跡のきめ細かい制御を必要とする。
本稿では,動画生成のためのゼロショット方式であるActCamについて述べる。
ActCamは、シーンの深さとキャラクターのポーズの条件付けを受け付ける、事前訓練された画像とビデオの拡散モデルの上に構築されている。
ActCamは移動キャラクタとターゲットカメラモーションを備えたソースビデオから、フレーム間で幾何学的に整合したポーズと深さ条件を生成する。
次に,2段階の条件付き単一サンプリングプロセスを実行する: ポーズとスパースの両方のステップ条件を早期に記述し,シーン構造を強制し,その後,深さを落としてポーズのみのガイダンスにより,生成を過剰に抑制することなく高周波の詳細を洗練する。
多様なキャラクタの動きと難易度の変化にまたがる複数のベンチマークでActCamを評価した。
ActCamは、ポーズのみの制御や、他のポーズやカメラ手法と比較して、カメラの忠実度や動きの忠実度を向上し、特に大きな視点での評価において好まれる。
以上の結果から,注意深いカメラコンディショニングとステージ誘導により,トレーニングなしで強力なジョイントカメラとモーションコントロールが実現できることが示唆された。
プロジェクトページ: https://elkhomar.github.io/actcam/。
関連論文リスト
- FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning [45.013802909442184]
我々は、モノクロ人間の肖像画映像入力のための、カスタマイズ可能なカメラトラジェクトリの下でビデオを生成するシステムFaceCamを紹介する。
Ava-256データセットとさまざまなインザワイルドビデオの実験は、FaceCamがカメラの制御性、視覚的品質、アイデンティティ、動きの保存性において優れたパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-03-05T18:59:58Z) - PostCam: Camera-Controllable Novel-View Video Generation with Query-Shared Cross-Attention [13.912161562631722]
PostCamは、ダイナミックシーンにおけるカメラトラジェクトリのポストキャプチャ後の編集を可能にする、ノベルビュービデオ生成のためのフレームワークである。
実世界のデータセットと合成データセットの両方の実験により、PostCamは最先端の手法よりも、カメラ制御の精度とビューの一貫性が20%以上向上していることが示された。
論文 参考訳(メタデータ) (2025-11-21T12:05:46Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - CamCo: Camera-Controllable 3D-Consistent Image-to-Video Generation [117.16677556874278]
我々はCamCoを導入し、細粒度カメラのポーズ制御を画像からビデオへ生成する。
生成したビデオの3D一貫性を高めるため,各アテンションブロックにエピポーラアテンションモジュールを統合する。
実験の結果,CamCoは従来のモデルに比べて3次元の整合性とカメラ制御能力を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-06-04T17:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。