論文の概要: UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models
- arxiv url: http://arxiv.org/abs/2602.22960v1
- Date: Thu, 26 Feb 2026 12:54:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.691138
- Title: UCM: Unifying Camera Control and Memory with Time-aware Positional Encoding Warping for World Models
- Title(参考訳): UCM:世界モデルのための時間認識位置符号化によるカメラ制御とメモリの統合
- Authors: Tianxing Xu, Zixuan Wang, Guangyuan Wang, Li Hu, Zhongyi Zhang, Peng Zhang, Bang Zhang, Song-Hai Zhang,
- Abstract要約: UCMは、長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
我々はまた、ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入し、シーンの再考をシミュレートする。
- 参考スコア(独自算出の注目度): 54.564740558030245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models based on video generation demonstrate remarkable potential for simulating interactive environments but face persistent difficulties in two key areas: maintaining long-term content consistency when scenes are revisited and enabling precise camera control from user-provided inputs. Existing methods based on explicit 3D reconstruction often compromise flexibility in unbounded scenarios and fine-grained structures. Alternative methods rely directly on previously generated frames without establishing explicit spatial correspondence, thereby constraining controllability and consistency. To address these limitations, we present UCM, a novel framework that unifies long-term memory and precise camera control via a time-aware positional encoding warping mechanism. To reduce computational overhead, we design an efficient dual-stream diffusion transformer for high-fidelity generation. Moreover, we introduce a scalable data curation strategy utilizing point-cloud-based rendering to simulate scene revisiting, facilitating training on over 500K monocular videos. Extensive experiments on real-world and synthetic benchmarks demonstrate that UCM significantly outperforms state-of-the-art methods in long-term scene consistency, while also achieving precise camera controllability in high-fidelity video generation.
- Abstract(参考訳): 映像生成に基づく世界モデルは、インタラクティブな環境をシミュレートする上で顕著な可能性を示しているが、2つの重要な領域において永続的な困難に直面している。
明示的な3次元再構成に基づく既存の手法は、境界のないシナリオやきめ細かい構造において、しばしば柔軟性を損なう。
代替手法は、明示的に空間対応を確立することなく、予め生成されたフレームを直接頼りにすることで、制御可能性と一貫性を制約する。
これらの制約に対処するため、UCMは長期記憶と正確なカメラ制御をタイムアウェアな位置符号化変換機構を介して統合する新しいフレームワークである。
計算オーバーヘッドを低減するため,高忠実度生成のための効率的な2ストリーム拡散変圧器を設計する。
さらに,500K以上のモノクロビデオのトレーニングを容易にするために,ポイントクラウドベースのレンダリングを利用したスケーラブルなデータキュレーション戦略を導入する。
実世界および合成ベンチマークの大規模な実験により、UCMは長時間のシーン一貫性において最先端の手法を著しく上回り、高忠実度ビデオ生成において正確なカメラ制御性を実現していることが示された。
関連論文リスト
- DCDM: Divide-and-Conquer Diffusion Models for Consistency-Preserving Video Generation [77.89090846233906]
我々はDivide-and-Conquer Diffusion Model (DCDM)と呼ばれるシステムレベルのフレームワークを提案する。
DCDMは、統合されたビデオ生成バックボーンを共有しながら、ビデオ一貫性モデリングを3つの専用コンポーネントに分解する。
我々は,AAAI'26におけるCVMコンペティションのテストセットにおけるフレームワークの検証を行い,提案手法がこれらの課題に効果的に対処できることを実証した。
論文 参考訳(メタデータ) (2026-02-14T07:02:36Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - DriveCamSim: Generalizable Camera Simulation via Explicit Camera Modeling for Autonomous Driving [9.882070476776274]
一般化可能なカメラシミュレーションフレームワークDriveCamSimを提案する。
私たちの中心となるイノベーションは、提案されているExplicit Camera Modelingメカニズムにあります。
制御可能な生成のために、既存の条件エンコーディングおよびインジェクションパイプラインに固有の情報損失の問題を同定する。
論文 参考訳(メタデータ) (2025-05-26T08:50:15Z) - Towards Efficient Real-Time Video Motion Transfer via Generative Time Series Modeling [7.3949576464066]
本研究では,モーショントランスファー対応ビデオアプリケーションにおいて,帯域幅を大幅に最適化する深層学習フレームワークを提案する。
複雑な動きを効果的に捉えるために,キーポイントを検出することで動的物体を符号化する第1次運動モデル(FOMM)を用いる。
ビデオアニメーションと再構成のために, 平均絶対誤差, 共同埋め込み予測アーキテクチャ埋め込み距離, 構造類似度指数, 平均ペアワイズ変位の3つの指標を用いて, 実験結果を検証した。
論文 参考訳(メタデータ) (2025-04-07T22:21:54Z) - MultiViPerFrOG: A Globally Optimized Multi-Viewpoint Perception Framework for Camera Motion and Tissue Deformation [18.261678529996104]
本稿では,低レベル認識モジュールの出力をキネマティックおよびシーンモデリングの先駆体と柔軟に統合するフレームワークを提案する。
提案手法は,数ミリ秒で数百ポイントの処理が可能であり,ノイズの多い入力手段の組み合わせに対するロバスト性を示す。
論文 参考訳(メタデータ) (2024-08-08T10:55:55Z) - Implicit Motion Handling for Video Camouflaged Object Detection [60.98467179649398]
本稿では,新しいビデオカモフラージュオブジェクト検出(VCOD)フレームワークを提案する。
短期的および長期的整合性を利用して、ビデオフレームからカモフラージュされたオブジェクトを検出する。
論文 参考訳(メタデータ) (2022-03-14T17:55:41Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。