論文の概要: Robust Dreamer: Deviation-Aware Latent Gaussian Memory for Action-Controlled AR Video Generation
- arxiv url: http://arxiv.org/abs/2605.30855v2
- Date: Mon, 01 Jun 2026 09:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 18:24:16.919457
- Title: Robust Dreamer: Deviation-Aware Latent Gaussian Memory for Action-Controlled AR Video Generation
- Title(参考訳): ロバスト・ドリーマー:行動制御されたARビデオ生成のための逸脱を意識した潜在ガウス記憶
- Authors: Hanlin Chen, Jiaxin Wei, Xibin Song, Yifu Wang, Steve Wang, Hongdong Li, Pan Ji, Gim Hee Lee,
- Abstract要約: アクション制御された画像対ビデオ生成は、インタラクティブな世界シミュレーションにおいて有望なパラダイムであり、各制御信号が即時視覚応答を誘発する。
長時間の自己回帰的なロールアウトに対する視覚的忠実さと3D一貫性を維持することは依然として難しい。
既存の3D認識手法は、textitLatent--RGB Cyclingからの情報損失と、textiterror-free仮説によって引き起こされるトレーニング-推論ギャップという2つの障害により、破滅的なドリフトに悩まされることが多い。
textbfRobust Dreamerという,メモリ拡張フレームワークについて紹介する。
- 参考スコア(独自算出の注目度): 89.70897512515477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frame-wise action-controlled image-to-video generation is a promising paradigm for interactive world simulation, where each control signal should elicit an immediate visual response. However, maintaining visual fidelity and 3D consistency over long autoregressive rollouts remains challenging. Existing 3D-aware methods often suffer from catastrophic drift due to two impediments: information loss from \textit{Latent--RGB Cycling}, where generated latents are repeatedly decoded to RGB and re-encoded for future conditioning, and the training--inference gap induced by the \textit{error-free hypothesis}, where clean training memory fails to match prediction-corrupted inference memory. To address these challenges, we present \textbf{Robust Dreamer}, a memory-augmented framework built around how to design 3D memory and how to use it robustly. First, we introduce \textbf{Latent Gaussian Memory}, which anchors diffusion latents inherited from the generation process to Gaussian primitives and recalls them via latent-space Gaussian splatting. This provides dense, geometry-aware, view-aligned conditioning while avoiding accumulated degradation from repeated VAE conversion. Second, we propose \textbf{Deviation Learning with Dynamic Deviation Archive}, which synthesizes rollout-induced latent deviations through a one-step approximation, stores them by autoregressive stage and denoising timestamp, and injects them into historical memory during training. This exposes the generator to realistic corrupted memory states and teaches internal correction before inference. Experiments on ScanNet, DL3DV, and OmniWorldGame demonstrate state-of-the-art long-horizon performance.
- Abstract(参考訳): フレームワイドなアクション制御による映像映像生成はインタラクティブな世界シミュレーションにおいて有望なパラダイムであり、各制御信号が即時視覚応答を誘発する。
しかし、長時間の自己回帰的なロールアウトに対して視覚的忠実さと3D一貫性を維持することは依然として困難である。
既存の3D認識手法は、生成した潜伏剤をRGBに繰り返し復号し、将来の条件付けのために再符号化する \textit{Latent--RGB Cycling} からの情報損失と、クリーンなトレーニングメモリが予測に失敗する \textit{error-free hypothesis} によって誘導されるトレーニング-推論ギャップという2つの障害により、破滅的なドリフトに悩まされることが多い。
これらの課題に対処するために,3Dメモリの設計方法と堅牢な使用方法を中心に構築されたメモリ拡張フレームワークである‘textbf{Robust Dreamer} を紹介した。
まず、生成プロセスからガウス的プリミティブに継承された拡散遅延をアンロックし、ラテント空間ガウス的スプレイティングを通じてリコールする。
これにより、VAE変換の繰り返しによる累積劣化を回避しつつ、密度が高く、幾何学的、ビューアラインな条件付けが可能になる。
第2に,1段階近似を用いてロールアウト誘起潜時偏差を合成し,自己回帰ステージで保存し,タイムスタンプを復調し,トレーニング中に過去の記憶に注入する,動的逸脱アーカイブ付きtextbf{Deviation Learningを提案する。
これにより、ジェネレータを現実的な劣化したメモリ状態に公開し、推論前に内部修正を教える。
ScanNet、DL3DV、OmniWorldGameの実験では、最先端のロングホライゾン性能が実証されている。
関連論文リスト
- GaussianDream: A Feed-Forward 3D Gaussian World Model for Robotic Manipulation [54.671815855499034]
視覚言語アクション(VLA)ポリシーは、セマンティック先行をアクション生成に転送することで、言語条件のロボット操作を進化させた。
標準的な行動模倣学習は、しばしば明示的な3次元空間情報、密集した幾何学的監督、将来の環境進化の十分なモデリングを欠いている。
フィードフォワード3Dガウス世界モデルプラグインである textbfGaussianDream を提案する。
論文 参考訳(メタデータ) (2026-05-20T05:51:30Z) - Scal3R: Scalable Test-Time Training for Large-Scale 3D Reconstruction [50.5449251266956]
本稿では,長い映像シーケンスから大規模3Dシーンを再構築する作業について述べる。
近年のフィードフォワード再構成モデルでは,RGB画像からの3次元幾何を,明示的な3次元先行や幾何学的制約なく直接回帰することで,有望な結果を示している。
本稿では,長距離シーン情報を効率よく圧縮し,保持するニューラルグローバルコンテキスト表現を提案する。
論文 参考訳(メタデータ) (2026-04-09T17:59:50Z) - I3DM: Implicit 3D-aware Memory Retrieval and Injection for Consistent Video Scene Generation [56.33710337846449]
I3DMは、一貫した映像シーン生成のための暗黙的な3D対応メモリ機構である。
われわれのアプローチの核心は3D対応メモリ検索戦略である。
検索した履歴フレームをフル活用するために,3次元メモリインジェクションモジュールを導入する。
論文 参考訳(メタデータ) (2026-03-24T16:45:40Z) - RELIC: Interactive Video World Model with Long-Horizon Memory [74.81433479334821]
真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
論文 参考訳(メタデータ) (2025-12-03T18:29:20Z) - Stable Video Infinity: Infinite-Length Video Generation with Error Recycling [76.91310169118408]
本研究では、高時間一貫性、可視的シーン遷移、制御可能なストリーミングストーリーラインを有する無限長ビデオを生成することができる安定ビデオインフィニティ(SVI)を提案する。
SVIにはError-Recycling Fine-Tuningが組み込まれており、これはDiffusion Transformerの自己生成エラーをスーパーバイザのプロンプトにリサイクルする、新しいタイプの効率的なトレーニングである。
我々は、一貫性、創造性、条件設定を含む3つのベンチマークでSVIを評価し、その汎用性と最先端の役割を徹底的に検証した。
論文 参考訳(メタデータ) (2025-10-10T09:45:46Z) - Forge4D: Feed-Forward 4D Human Reconstruction and Interpolation from Uncalibrated Sparse-view Videos [27.595035122927204]
本研究では,非校正されたスパースビュー映像からの時間的整列表現を効率よく校正するフィードフォワード4次元人間の再構成とモデルを提案する。
新たに,隣接する2つのフレーム間の3次元ガウス運動の高密度な動きを予測するための動き予測モジュールを設計した。
実験では、ドメイン内データセットとドメイン外データセットの両方において、モデルの有効性を示す。
論文 参考訳(メタデータ) (2025-09-29T02:47:14Z) - JanusVLN: Decoupling Semantics and Spatiality with Dual Implicit Memory for Vision-Language Navigation [22.956416709470503]
Vision-and-Language Navigationでは、自然言語命令と連続的なビデオストリームによってガイドされた、目に見えない環境をナビゲートするために、エンボディエージェントが必要である。
VLNの最近の進歩は、マルチモーダル大規模言語モデルの強力な意味理解によって推進されている。
本稿では,空間幾何学的,視覚的セマンティックメモリを分離,コンパクト,固定サイズのニューラル表現としてモデル化した,二重暗黙的ニューラルメモリを備えた新しいVLNフレームワークであるJanusVLNを提案する。
論文 参考訳(メタデータ) (2025-09-26T16:29:37Z) - VoxelSplat: Dynamic Gaussian Splatting as an Effective Loss for Occupancy and Flow Prediction [46.31516096522758]
カメラによる占領予測の最近の進歩は、3Dセマンティクスとシーンフローの同時予測に焦点を当てている。
本稿では,これらの課題とその根本原因を解決するために,VoxelSplatという新たな正規化フレームワークを提案する。
本フレームワークは,ガウス運動をモデル化するために,予測されたシーンフローを用いて,移動物体のシーンフローを自己監督的に学習することができる。
論文 参考訳(メタデータ) (2025-06-05T20:19:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。