論文の概要: FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning
- arxiv url: http://arxiv.org/abs/2603.05506v1
- Date: Thu, 05 Mar 2026 18:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.396394
- Title: FaceCam: Portrait Video Camera Control via Scale-Aware Conditioning
- Title(参考訳): FaceCam:スケール・アウェア・コンディショニングによるポートレートビデオカメラ制御
- Authors: Weijie Lyu, Ming-Hsuan Yang, Zhixin Shu,
- Abstract要約: 我々は、モノクロ人間の肖像画映像入力のための、カスタマイズ可能なカメラトラジェクトリの下でビデオを生成するシステムFaceCamを紹介する。
Ava-256データセットとさまざまなインザワイルドビデオの実験は、FaceCamがカメラの制御性、視覚的品質、アイデンティティ、動きの保存性において優れたパフォーマンスを達成することを示した。
- 参考スコア(独自算出の注目度): 45.013802909442184
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FaceCam, a system that generates video under customizable camera trajectories for monocular human portrait video input. Recent camera control approaches based on large video-generation models have shown promising progress but often exhibit geometric distortions and visual artifacts on portrait videos due to scale-ambiguous camera representations or 3D reconstruction errors. To overcome these limitations, we propose a face-tailored scale-aware representation for camera transformations that provides deterministic conditioning without relying on 3D priors. We train a video generation model on both multi-view studio captures and in-the-wild monocular videos, and introduce two camera-control data generation strategies: synthetic camera motion and multi-shot stitching, to exploit stationary training cameras while generalizing to dynamic, continuous camera trajectories at inference time. Experiments on Ava-256 dataset and diverse in-the-wild videos demonstrate that FaceCam achieves superior performance in camera controllability, visual quality, identity and motion preservation.
- Abstract(参考訳): 我々は、モノクロ人間の肖像画映像入力のための、カスタマイズ可能なカメラトラジェクトリの下でビデオを生成するシステムFaceCamを紹介する。
大規模な映像生成モデルに基づく最近のカメラ制御手法は、期待できる進歩を示しているが、大規模なカメラ表現や3次元再構成誤差による幾何学的歪みや視覚的アーチファクトがポートレートビデオにしばしば現れる。
これらの制約を克服するために,3次元先行性に依存しない決定論的条件付けを提供するカメラ変換のための顔調整スケールアウェア表現を提案する。
マルチビュースタジオ撮影とワンシーンビデオの両方でビデオ生成モデルをトレーニングし、合成カメラモーションとマルチショットステッチという2つのカメラ制御データ生成戦略を導入し、静止カメラを推論時に動的で連続的なカメラ軌道に一般化しながら活用する。
Ava-256データセットとさまざまなインザワイルドビデオの実験は、FaceCamがカメラの制御性、視覚的品質、アイデンティティ、動きの保存性において優れたパフォーマンスを達成することを示した。
関連論文リスト
- Beyond Inpainting: Unleash 3D Understanding for Precise Camera-Controlled Video Generation [21.084121261693365]
正確なカメラ制御性を備えたビデオ再レンダリングフレームワークであるDepthDirectorを提案する。
本手法は, カメラ制御ガイダンスとして, 鮮明な3次元映像から深度映像を活用することにより, 新規なカメラ軌道下での入力映像のダイナミックなシーンを忠実に再現することができる。
論文 参考訳(メタデータ) (2026-01-15T09:26:45Z) - Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - VividCam: Learning Unconventional Camera Motions from Virtual Synthetic Videos [58.09854638265381]
VividCamは、拡散モデルによって合成ビデオから複雑なカメラの動きを学習する訓練パラダイムである。
我々は、驚くほど単純な合成データを用いて、精密に制御された複雑なカメラの動きを広範囲に合成できることを実証した。
論文 参考訳(メタデータ) (2025-10-28T19:12:22Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - AC3D: Analyzing and Improving 3D Camera Control in Video Diffusion Transformers [66.29824750770389]
カメラの動きを第一原理の観点から分析し、正確な3Dカメラ操作を可能にする洞察を明らかにする。
これらの知見を合成して、高度な3Dカメラ制御(AC3D)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-11-27T18:49:13Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
制御ネットライクなコンディショニング機構を用いて3次元カメラ制御のためのトランスフォーマー映像の改ざん方法を示す。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - CamViG: Camera Aware Image-to-Video Generation with Multimodal Transformers [18.67069364925506]
本稿では,3次元カメラ動作の符号化に生成した映像を条件付けすることで,仮想3Dカメラ制御を生成ビデオに付加することを提案する。
その結果,(1)単一フレームとカメラ信号から始まる映像生成におけるカメラの制御に成功し,(2)従来のコンピュータビジョン手法を用いて生成された3Dカメラパスの精度を示すことができた。
論文 参考訳(メタデータ) (2024-05-21T20:54:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。