論文の概要: Render, Don't Decode: Weight-Space World Models with Latent Structural Disentanglement
- arxiv url: http://arxiv.org/abs/2605.06298v2
- Date: Fri, 08 May 2026 08:40:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 16:31:23.137079
- Title: Render, Don't Decode: Weight-Space World Models with Latent Structural Disentanglement
- Title(参考訳): Render, Don't Decode: 遅延構造ディスタングルを持つ軽量空間世界モデル
- Authors: Roussel Desmond Nzoyem, Mauro Comi,
- Abstract要約: 補助座標に基づく暗黙的ニューラル表現(INR)の重みとバイアスとしてシステム状態を表す世界モデリングフレームワークNOVAを紹介する。
この構造化された表現は解析的にレンダリングされ、コンパクト性、可搬性、ゼロショット超解像を参照しながらデコーダのボトルネックを解消する。
当社のフレームワークは、いくつかの挑戦的なデータセット上で検証し、$sim$40Mパラメータで単一のコンシューマGPU上で運用しながら、強力な制御可能な予測を実現しています。
- 参考スコア(独自算出の注目度): 2.931556701508956
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training world models on vast quantities of unlabelled videos is a critical step toward fully autonomous intelligence. However, the prevailing paradigm of encoding raw pixels into opaque latent spaces and relying on heavy decoders for reconstruction leaves these models computationally expensive and uninterpretable. We address this problem by introducing NOVA, a world modelling framework that represents the system state as the weights and biases of an auxiliary coordinate-based implicit neural representation (INR). This structured representation is analytically rendered, which eliminates the decoder bottleneck while conferring compactness, portability, and zero-shot super-resolution. Furthermore, like most latent action models, NOVA can be distilled into a context-dependent video generator via an action-matching objective. Surprisingly, without resorting to auxiliary losses or adversarial objectives, NOVA can disentangle structural scene components such as background, foreground, and inter-frame motion, enabling users to edit either content or dynamics without compromising the other. We validate our framework on several challenging datasets, achieving strong controllable forecasting while operating on a single consumer GPU at $\sim$40M parameters. Ultimately, structured representations like INRs not only enhance our understanding of latent dynamics but also pave the way for immersive and customisable virtual experiences.
- Abstract(参考訳): 大量のビデオで世界モデルを訓練することは、完全自律型インテリジェンスにとって重要なステップだ。
しかし、生のピクセルを不透明な潜在空間に符号化し、再構成のために重いデコーダに頼るという一般的なパラダイムは、これらのモデルを計算的に高価で理解し難いものにしている。
この問題を解決するために、補助座標に基づく暗黙的ニューラル表現(INR)の重みとバイアスとしてシステム状態を表す世界モデリングフレームワークであるNOVAを導入する。
この構造化された表現は解析的にレンダリングされ、コンパクト性、可搬性、ゼロショット超解像を参照しながらデコーダのボトルネックを解消する。
さらに、ほとんどの潜在アクションモデルと同様に、NOVAはアクションマッチングの目的によって文脈依存のビデオジェネレータに蒸留することができる。
驚いたことに、補助的な損失や敵対的な目的に頼らずに、NOVAは背景、前景、フレーム間動作などの構造的なシーンコンポーネントをアンタングル化することができ、ユーザーはコンテンツを編集したり、動的に編集したりできる。
当社のフレームワークは、いくつかの挑戦的なデータセット上で検証し、$\sim$40Mパラメータで1つのコンシューマGPU上で運用しながら、強力な制御可能な予測を実現しています。
最終的に、INRのような構造化された表現は、潜伏力学の理解を深めるだけでなく、没入的でカスタマイズ可能な仮想体験の道を開く。
関連論文リスト
- QVAD: A Question-Centric Agentic Framework for Efficient and Training-Free Video Anomaly Detection [11.652235163237117]
ビデオ異常検出(VAD)はコンピュータビジョンにおける基本的な課題である。
本稿では,VLM-LLMインタラクションを動的対話として扱う質問中心エージェントフレームワークQVADを提案する。
QVADはメモリフットプリントを最小限にして高い推論速度を実現し、リソース制約のエッジデバイスに高度なVAD機能を提供する。
論文 参考訳(メタデータ) (2026-04-03T13:48:34Z) - Motion Forcing: A Decoupled Framework for Robust Video Generation in Motion Dynamics [37.22501359080204]
ビデオ生成平衡の安定化を目的としたフレームワークである textbfMotion Forcing を導入する。
我々の重要な洞察は、視覚合成から物理的推論を明確に分離することである。
自動運転ベンチマークの実験によると、Motion Forcingは最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-03-11T04:44:46Z) - Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - TriFusion-AE: Language-Guided Depth and LiDAR Fusion for Robust Point Cloud Processing [0.0]
オートエンコーダは、デノナイズと再構築のための自然なフレームワークを提供するが、そのパフォーマンスは、現実の困難な条件下で低下する。
テキスト先行情報と多視点画像からの単眼深度マップとLiDAR点雲を統合し,ロバスト性を向上させるクロスアテンションオートエンコーダであるTriFusion-AEを提案する。
このモデルは,CNNベースのオートエンコーダが崩壊する強敵攻撃と重騒音下で,より堅牢な再構築を実現する。
論文 参考訳(メタデータ) (2025-09-23T07:37:28Z) - HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis [59.25751939710903]
本稿では,長い単眼RGBビデオのエンボディドビュー合成に対処する,変形可能なガウススプラッティングフレームワークを提案する。
提案手法は,非可逆ガウス散乱変形ネットワークを利用して大規模動的環境を正確に再構築する。
その結果、現実のシナリオにおけるEVSの実用的でスケーラブルなソリューションが浮かび上がっています。
論文 参考訳(メタデータ) (2025-06-24T03:54:40Z) - Sparse identification of nonlinear dynamics and Koopman operators with Shallow Recurrent Decoder Networks [3.1484174280822845]
本稿では, 簡易な実装, 効率的, 堅牢な性能で, センサとモデル識別の問題を共同で解決する手法を提案する。
SINDy-SHREDはGated Recurrent Unitsを使用してスパースセンサー計測と浅いネットワークデコーダをモデル化し、潜在状態空間からフルタイムフィールドを再構築する。
本研究では, 乱流, 海面温度の実環境センサ計測, 直接ビデオデータなどのPDEデータに関する系統的研究を行った。
論文 参考訳(メタデータ) (2025-01-23T02:18:13Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。