論文の概要: Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video
- arxiv url: http://arxiv.org/abs/2605.15182v1
- Date: Thu, 14 May 2026 17:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:35.010666
- Title: Warp-as-History: Generalizable Camera-Controlled Video Generation from One Training Video
- Title(参考訳): ワープ・アズ・ヒストリー:1つのトレーニングビデオから一般的なカメラ制御ビデオを生成する
- Authors: Yifan Wang, Tong He,
- Abstract要約: 本稿では,カメラによるワープをカメラワープした擬似歴史に変換するシンプルなインタフェースを提案する。
我々は,その位置エンコーディングと対象フレームの識別とを整合させ,正確な情報源観測を行なわずに歪んだ歴史トークンを除去する。
本手法は,テスト時間最適化やターゲット映像適応を伴わずに,カメラの付着性,視覚的品質,動きのダイナミクスを改善する。
- 参考スコア(独自算出の注目度): 19.675672131137382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Camera-controlled video generation has made substantial progress, enabling generated videos to follow prescribed viewpoint trajectories. However, existing methods usually learn camera-specific conditioning through camera encoders, control branches, or attention and positional-encoding modifications, which often require post-training on large-scale camera-annotated videos. Training-free alternatives avoid such post-training, but often shift the cost to test-time optimization or extra denoising-time guidance. We propose Warp-as-History, a simple interface that turns camera-induced warps into camera-warped pseudo-history with target-frame positional alignment and visible-token selection. Given a target camera trajectory, we construct camera-warped pseudo-history from past observations and feed it through the model's visual-history pathway. Crucially, we align its positional encoding with the target frames being denoised and remove warped-history tokens without valid source observations. Without any training, architectural modification, or test-time optimization, this interface reveals a non-trivial zero-shot capability of a frozen video generation model to follow camera trajectories. Moreover, lightweight offline LoRA finetuning on only one camera-annotated video further improves this capability and generalizes to unseen videos, improving camera adherence, visual quality, and motion dynamics without test-time optimization or target-video adaptation. Extensive experiments on diverse datasets confirm the effectiveness of our method.
- Abstract(参考訳): カメラ制御ビデオ生成は大幅に進歩し、生成されたビデオは所定の視点軌跡に従うことができる。
しかし、既存の手法は通常、カメラエンコーダ、制御ブランチ、注意や位置エンコードの変更を通じてカメラ固有の条件付けを学習する。
トレーニングなしの代替手段は、そのようなポストトレーニングを避けるが、しばしばコストをテスト時間最適化や余分な装飾時間ガイダンスにシフトする。
我々は、カメラによるワープを、ターゲットフレームの位置アライメントと可視性選択を備えた、カメラウォープされた擬似ヒストリーに変換するシンプルなインターフェースであるワープ・アズ・ヒストリーを提案する。
対象となるカメラの軌跡を考慮し,過去の観測からカメラウォープされた擬似歴史を構築し,そのモデルによる視覚的歴史経路を通じてそれを供給する。
重要なことは、位置エンコーディングと対象のフレームを識別して整列し、ソースの正確な観測を行なわずに歪んだ歴史トークンを除去する。
トレーニングやアーキテクチャの変更、テストタイムの最適化がなければ、このインターフェースは、カメラの軌跡を追従するための凍結ビデオ生成モデルの非自明なゼロショット機能を明らかにする。
さらに、1つのカメラアノテートビデオのみの軽量オフラインLoRAファインタニングにより、この機能はさらに改善され、未確認ビデオに一般化され、テスト時間最適化やターゲット映像適応なしに、カメラの付着性、視覚的品質、モーションダイナミクスが改善される。
多様なデータセットに対する大規模な実験により,本手法の有効性が確認された。
関連論文リスト
- Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - ReCamMaster: Camera-Controlled Generative Rendering from A Single Video [72.42376733537925]
ReCamMasterは、カメラ制御された生成ビデオの再レンダリングフレームワークである。
これは、新しいカメラ軌道における入力ビデオのダイナミックなシーンを再現する。
また,ビデオの安定化,超高解像度化,画質向上に有望な応用を見出した。
論文 参考訳(メタデータ) (2025-03-14T17:59:31Z) - CameraCtrl II: Dynamic Scene Exploration via Camera-controlled Video Diffusion Models [89.63787060844409]
CameraCtrl IIは、カメラ制御ビデオ拡散モデルによる大規模動的シーン探索を可能にするフレームワークである。
動的シーンの生成を段階的に拡大するアプローチを採っている。
論文 参考訳(メタデータ) (2025-03-13T17:42:01Z) - Learning Camera Movement Control from Real-World Drone Videos [25.10006841389459]
既存のAIビデオ撮影手法は、シミュレーショントレーニングにおいて、外観の多様性が限られている。
実世界のトレーニングデータを収集するスケーラブルな手法を提案する。
本システムでは,カメラの動きを効果的に学習できることが示される。
論文 参考訳(メタデータ) (2024-12-12T18:59:54Z) - Image Conductor: Precision Control for Interactive Video Synthesis [90.2353794019393]
映画製作とアニメーション制作は、しばしばカメラの遷移と物体の動きを調整するための洗練された技術を必要とする。
イメージコンダクタ(Image Conductor)は、カメラトランジションとオブジェクトの動きを正確に制御し、単一の画像からビデオアセットを生成する方法である。
論文 参考訳(メタデータ) (2024-06-21T17:55:05Z) - Training-free Camera Control for Video Generation [15.79168688275606]
本稿では,市販ビデオ拡散モデルに対して,カメラの動き制御を実現するためのトレーニングフリーで堅牢なソリューションを提案する。
本手法では,カメラ注釈付きデータセットの教師付き微調整やデータ拡張による自己教師型トレーニングは不要である。
ほとんどの事前訓練されたビデオ拡散モデルでプラグイン・アンド・プレイでき、単一の画像またはテキストプロンプトを入力としてカメラ制御可能なビデオを生成することができる。
論文 参考訳(メタデータ) (2024-06-14T15:33:00Z) - Collaborative Video Diffusion: Consistent Multi-video Generation with Camera Control [70.17137528953953]
コラボレーション型ビデオ拡散(CVD)は、ビデオ生成のための最先端のカメラ制御モジュール上で訓練される。
CVDは、異なるカメラ軌跡からレンダリングされた複数のビデオを、ベースラインよりもはるかに優れた一貫性で生成する。
論文 参考訳(メタデータ) (2024-05-27T17:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。