論文の概要: Geometry-Aware Rotary Position Embedding for Consistent Video World Model
- arxiv url: http://arxiv.org/abs/2602.07854v1
- Date: Sun, 08 Feb 2026 08:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.834536
- Title: Geometry-Aware Rotary Position Embedding for Consistent Video World Model
- Title(参考訳): 連続ビデオワールドモデルのための幾何学的回転位置埋め込み
- Authors: Chendong Xiang, Jiajun Liu, Jintao Zhang, Xiao Yang, Zhengwei Fang, Shizun Wang, Zijun Wang, Yingtian Zou, Hang Su, Jun Zhu,
- Abstract要約: ViewRopeは、ビデオトランスフォーマーの自己アテンション層に直接カメラの方向を注入するジオメトリ対応のエンコーディングである。
Geometry-Aware Frame-Sparse Attentionは、これらの幾何学的手がかりを利用して、関連する歴史的なフレームに選択的に参加する。
この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
- 参考スコア(独自算出の注目度): 48.914346802616414
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive world models that simulate future observations under explicit camera control are fundamental to interactive AI. Despite rapid advances, current systems lack spatial persistence: they fail to maintain stable scene structures over long trajectories, frequently hallucinating details when cameras revisit previously observed locations. We identify that this geometric drift stems from reliance on screen-space positional embeddings, which conflict with the projective geometry required for 3D consistency. We introduce \textbf{ViewRope}, a geometry-aware encoding that injects camera-ray directions directly into video transformer self-attention layers. By parameterizing attention with relative ray geometry rather than pixel locality, ViewRope provides a model-native inductive bias for retrieving 3D-consistent content across temporal gaps. We further propose \textbf{Geometry-Aware Frame-Sparse Attention}, which exploits these geometric cues to selectively attend to relevant historical frames, improving efficiency without sacrificing memory consistency. We also present \textbf{ViewBench}, a diagnostic suite measuring loop-closure fidelity and geometric drift. Our results demonstrate that ViewRope substantially improves long-term consistency while reducing computational costs.
- Abstract(参考訳): 明示的なカメラ制御の下で将来の観測をシミュレートする予測的世界モデルは、対話型AIの基本である。
現在のシステムは空間的な持続性に欠けており、長い軌道上で安定したシーン構造を維持することができず、カメラが以前観測された場所を再訪する際には、しばしば詳細を幻覚させる。
この幾何学的ドリフトは、3次元の整合性に必要な射影幾何学と矛盾するスクリーン空間の位置埋め込みに依存することから生じる。
本稿では,ビデオトランスフォーマーの自己注意層に直接カメラの方向を注入するジオメトリ対応エンコーディングである「textbf{ViewRope}」を紹介する。
ピクセルの局所性よりも相対線幾何に注意を向けることで、ViewRopeは時間的ギャップを越えて3D一貫性のあるコンテンツを取得するためのモデルネイティブな帰納バイアスを提供する。
さらに,これらの幾何学的手法を用いて,記憶の整合性を犠牲にすることなく,効率を向上し,関連する履歴フレームに選択的に参画する「textbf{Geometry-Aware Frame-Sparse Attention}」を提案する。
また,ループ閉鎖率と幾何ドリフトを測定する診断スイートであるtextbf{ViewBench} も提示した。
この結果から,ViewRopeは長期的整合性を大幅に向上し,計算コストを低減できることがわかった。
関連論文リスト
- DVGT: Driving Visual Geometry Transformer [63.38483879291505]
駆動対象の高密度幾何知覚モデルは、異なるシナリオやカメラ構成に適応することができる。
提案するドライビング・ビジュアル・ジオメトリ・トランスフォーマ (DVGT) は, 広義の高密度な3Dポイントマップを, 複数視点の視覚入力の列から再構成する。
DVGTには、任意のカメラ構成のフレキシブルな処理を可能にする、明示的な3D幾何学的事前処理がない。
論文 参考訳(メタデータ) (2025-12-18T18:59:57Z) - ControlVP: Interactive Geometric Refinement of AI-Generated Images with Consistent Vanishing Points [32.23473666846317]
生成した画像の点不整合を補正するユーザガイドフレームワークである制御VPを提案する。
提案手法は, 構造物の輪郭から導出される構造的ガイダンスを組み込むことにより, 事前学習拡散モデルを拡張する。
本手法は,ベースラインに匹敵する視力を維持しながら,グローバルな幾何整合性を向上させる。
論文 参考訳(メタデータ) (2025-12-08T12:38:11Z) - GeoVideo: Introducing Geometric Regularization into Video Generation Model [46.38507581500745]
フレームごとの深度予測による潜時拡散モデルの拡大により,ビデオ生成に幾何正則化損失を導入する。
本手法は, 外観生成と3次元構造モデリングのギャップを埋めることにより, 構造的コヒーレンス・時間的形状, 整合性, 物理的妥当性が向上する。
論文 参考訳(メタデータ) (2025-12-03T05:11:57Z) - TALO: Pushing 3D Vision Foundation Models Towards Globally Consistent Online Reconstruction [57.46712611558817]
3次元視覚基礎モデルでは、1つのフィードフォワードパスを通して、未校正画像からキー3D属性を再構成する際の強力な一般化が示されている。
近年の戦略は,グローバルトランスフォーメーションの解決によって連続的な予測と整合するが,本分析では,仮定の妥当性,局所的なアライメント範囲,雑音的幾何の下でのロバスト性といった基本的な限界を明らかにしている。
本研究では,グローバルに伝播する制御点を利用して空間的に異なる不整合を補正する,Tin Plate Splineに基づく高DOFおよび長期アライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-02T02:22:20Z) - GaVS: 3D-Grounded Video Stabilization via Temporally-Consistent Local Reconstruction and Rendering [54.489285024494855]
ビデオの安定化は、元のユーザの動きの意図を保ちながら、望ましくないシャキネスを除去するので、ビデオ処理に欠かせない。
既存のアプローチは、運用するドメインによって、ユーザエクスペリエンスを低下させるいくつかの問題に悩まされます。
ビデオの安定化を時間的に一貫性のある局所的再構成とレンダリングのパラダイムとして再構成する,新しい3Dグラウンドアプローチである textbfGaVS を紹介する。
論文 参考訳(メタデータ) (2025-06-30T15:24:27Z) - Breaking Down Monocular Ambiguity: Exploiting Temporal Evolution for 3D Lane Detection [79.98605061363999]
単眼3次元車線検出は,前頭側視像(FV)から車線の3次元位置を推定することを目的としている。
既存の手法は、単一フレーム入力の固有のあいまいさによって制約される。
車両が移動するときにシーンの時間的進化に埋め込まれたリッチな情報を解放することを提案する。
論文 参考訳(メタデータ) (2025-04-29T08:10:17Z) - GeometryCrafter: Consistent Geometry Estimation for Open-world Videos with Diffusion Priors [47.21120442961684]
オープンワールドビデオから時間的コヒーレンスで高忠実度点マップシーケンスを復元する新しいフレームワークであるGeometryCrafterを提案する。
GeometryCrafterは最先端の3D精度、時間的一貫性、一般化能力を実現する。
論文 参考訳(メタデータ) (2025-04-01T17:58:03Z) - Attention meets Geometry: Geometry Guided Spatial-Temporal Attention for
Consistent Self-Supervised Monocular Depth Estimation [42.249533907879126]
本稿では,近年普及している変圧器アーキテクチャと新たな正規化損失定式化を併用して,深さの整合性を改善する方法について検討する。
本稿では,局所的な幾何学的情報を集約するために,粗い深度予測を関連付ける空間的注意モジュールを提案する。
新たな時間的注意機構は、連続した画像間のグローバルコンテキストにおける局所的幾何学情報をさらに処理する。
論文 参考訳(メタデータ) (2021-10-15T16:43:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。