論文の概要: RealCam: Real-Time Novel-View Video Generation with Interactive Camera Control
- arxiv url: http://arxiv.org/abs/2605.06051v1
- Date: Thu, 07 May 2026 11:36:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.729974
- Title: RealCam: Real-Time Novel-View Video Generation with Interactive Camera Control
- Title(参考訳): RealCam: インタラクティブカメラ制御によるリアルタイムノベルビュー映像生成
- Authors: Youcan Xu, Jiaxin Shi, Zhen Wang, Wensong Song, Feifei Shao, Chen Liang, Jun Xiao, Long Chen,
- Abstract要約: リアルタイムカメラ制御ビデオ・ツー・ビデオ(V2V)生成はインタラクティブな映画製作やライブ放送において大きな可能性を秘めている。
既存の暗黙合成法は、非因果的、フルシーケンス処理と厳密なプレフィックススタイルの時間的結合に依存している。
我々は、インタラクティブでリアルタイムなカメラ制御V2V生成のための新しい自動回帰フレームワーク、texttRealCamを紹介した。
- 参考スコア(独自算出の注目度): 30.825728569025525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera-controlled video-to-video (V2V) generation enables dynamic viewpoint synthesis from monocular footage, holding immense potential for interactive filmmaking and live broadcasting. However, existing implicit synthesis methods fundamentally rely on non-causal, full-sequence processing and rigid prefix-style temporal concatenation. This architectural paradigm mandates bidirectional attention, resulting in prohibitive computational latency, quadratic complexity scaling, and inherent incompatibility with real-time streaming or variable-length inputs. To overcome these limitations, we introduce \texttt{RealCam}, a novel autoregressive framework for interactive, real-time camera-controlled V2V generation. We first design a high-fidelity teacher model grounded in a \textbf{Cross-frame In-context Learning} paradigm. By interleaving source and target frames into synchronized contextual pairs, our design inherently enables length-agnostic generalization and naturally facilitates causal adaptation, breaking the rigid prefix bottleneck. We then distill this teacher into a few-step causal student via Self-Forcing with Distribution Matching Distillation, enabling efficient, on-the-fly streaming synthesis. Furthermore, to mitigate severe loop inconsistency in closed-loop trajectories, we propose \textbf{Loop-Closed Data Augmentation (LoopAug)}, a novel paradigm that synthesizes globally consistent loop sequences from existing multiview datasets. Extensive experiments demonstrate that \texttt{RealCam} achieves state-of-the-art visual fidelity and temporal consistency while enabling truly interactive camera control with orders-of-magnitude faster inference than existing paradigms. Our project page is at https://xyc-fly.github.io/RealCam/.
- Abstract(参考訳): カメラ制御ビデオ・ツー・ビデオ(V2V)生成により、モノクロ映像から動的視点合成が可能となり、インタラクティブな映画製作やライブ放送の可能性を秘めている。
しかし、既存の暗黙合成法は基本的に非因果的、全列処理と厳密なプレフィックススタイルの時間的結合に依存している。
このアーキテクチャパラダイムは双方向の注意を課し、計算遅延の禁止、二次的複雑性のスケーリング、リアルタイムストリーミングや可変長入力と固有の非互換性をもたらす。
これらの制限を克服するために,対話型リアルタイムカメラ制御V2V生成のための新しい自動回帰フレームワークである‘texttt{RealCam} を導入する。
まず, テキストbf{Cross-frame In-context Learning} パラダイムを基礎とした高忠実な教師モデルを設計する。
ソースフレームとターゲットフレームを同期したコンテキストペアにインターリーブすることで、我々の設計は本質的には長さに依存しない一般化を可能にし、因果適応を自然に促進し、厳密なプレフィックスボトルネックを破る。
次に、この教師をSelf-Forcing with Distribution Matching Distillationを介して数ステップの因果学生に蒸留し、効率的なオンザフライストリーミング合成を可能にする。
さらに,閉ループトラジェクトリにおける厳密なループ不整合を緩和するために,既存のマルチビューデータセットから一貫したループシーケンスを合成する新しいパラダイムである \textbf{Loop-Closed Data Augmentation (LoopAug)} を提案する。
広汎な実験により,既存のパラダイムよりも高速な推論で,最先端の視覚的忠実度と時間的整合性を実現するとともに,真の対話型カメラ制御を実現することが実証された。
私たちのプロジェクトページはhttps://xyc-fly.github.io/RealCam/です。
関連論文リスト
- UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models [54.564740558030245]
UCMは、長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
我々はまた、ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入し、シーンの再考をシミュレートする。
論文 参考訳(メタデータ) (2026-02-26T12:54:46Z) - Plenoptic Video Generation [80.3116444692858]
PlenopticDreamerは、同期時間記憶を維持するために生成幻覚を同期するフレームワークである。
中心となる考え方は、マルチインアウトのビデオ条件付きモデルを自己回帰的にトレーニングすることだ。
トレーニングでは,コンバージェンス向上のためのコンテキストスケーリング,エラー蓄積による幻覚への自己条件付け,拡張ビデオ生成をサポートする長時間ビデオコンディショニング機構が組み込まれている。
論文 参考訳(メタデータ) (2026-01-08T18:58:32Z) - Infinite-Homography as Robust Conditioning for Camera-Controlled Video Generation [49.12018869332346]
InfCamは、高ポーズ忠実度でカメラ制御されたビデオ・ビデオ生成フレームワークである。
1)ビデオ拡散モデルの2次元潜在空間内で直接3次元カメラ回転を符号化する。
論文 参考訳(メタデータ) (2025-12-18T20:03:05Z) - MotionStream: Real-Time Video Generation with Interactive Motion Controls [60.403597895657505]
単一GPU上で最大29FPSのストリーミング生成が可能なサブ秒レイテンシを実現するMotionStreamを提案する。
提案手法は,グローバルなテキストプロンプトとローカルなモーションガイダンスに準拠する高品質なビデオを生成するが,リアルタイムでは推論を行わないモーションコントロールによるテキスト・ツー・ビデオモデルの拡張から始まる。
我々のモデルでは、動きの追従と映像の質を2桁高速化し、無限長のストリーミングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T06:37:53Z) - LumosFlow: Motion-Guided Long Video Generation [31.63126037070182]
エンターテイメントやシミュレーションなどの分野で広く利用されていることから、長いビデオ生成が注目を集めている。
我々は階層的な長いビデオ生成パイプラインを再考し、モーションガイダンスを明示的に導入するフレームワークであるLumosFlowを紹介した。
従来のビデオフレームと比較して、15倍の精度で、隣接するフレーム間の合理的かつ連続的な動きを保証します。
論文 参考訳(メタデータ) (2025-06-03T06:25:00Z) - SplatVoxel: History-Aware Novel View Streaming without Temporal Training [29.759664150610362]
スパースビュー映像からの新たなビューストリーミングの問題について検討する。
既存のビュー合成手法は、時間的コヒーレンスと視覚的忠実さに苦慮している。
本稿では,ハイブリッド型スプラ・ボクセルフィードフォワードシーン再構築手法を提案する。
論文 参考訳(メタデータ) (2025-03-18T20:00:47Z) - Explorative Inbetweening of Time and Space [46.77750028273578]
与えられた開始フレームと終了フレームのみに基づいて映像生成を制御するために境界生成を導入する。
Time Reversal Fusionは、開始フレームと終了フレームに条件付けられた時間的に前方および後方にデノナイジングパスを融合する。
Time Reversal Fusionは、すべてのサブタスクにおける関連する作業よりも優れています。
論文 参考訳(メタデータ) (2024-03-21T17:57:31Z) - ControlVideo: Training-free Controllable Text-to-Video Generation [117.06302461557044]
ControlVideoは、自然で効率的なテキスト・ビデオ生成を可能にするフレームワークである。
NVIDIA 2080Tiを使って、ショートビデオとロングビデオの両方を数分で生成する。
論文 参考訳(メタデータ) (2023-05-22T14:48:53Z) - Towards Smooth Video Composition [59.134911550142455]
ビデオ生成には、時間とともに動的コンテンツを伴う一貫した永続的なフレームが必要である。
本研究は, 生成的対向ネットワーク(GAN)を用いて, 任意の長さの映像を構成するための時間的関係を, 数フレームから無限までモデル化するものである。
単体画像生成のためのエイリアスフリー操作は、適切に学習された知識とともに、フレーム単位の品質を損なうことなく、スムーズなフレーム遷移をもたらすことを示す。
論文 参考訳(メタデータ) (2022-12-14T18:54:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。