論文の概要: RELIC: Interactive Video World Model with Long-Horizon Memory
- arxiv url: http://arxiv.org/abs/2512.04040v1
- Date: Wed, 03 Dec 2025 18:29:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-04 20:02:55.422022
- Title: RELIC: Interactive Video World Model with Long-Horizon Memory
- Title(参考訳): RELIC:ロングホライゾンメモリを用いたインタラクティブビデオワールドモデル
- Authors: Yicong Hong, Yiqun Mei, Chongjian Ge, Yiran Xu, Yang Zhou, Sai Bi, Yannick Hold-Geoffroy, Mike Roberts, Matthew Fisher, Eli Shechtman, Kalyan Sunkavalli, Feng Liu, Zhengqi Li, Hao Tan,
- Abstract要約: 真のインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザ制御を必要とする。
この3つの課題を完全に解決する統合フレームワークであるRELICを紹介します。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
- 参考スコア(独自算出の注目度): 74.81433479334821
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A truly interactive world model requires three key ingredients: real-time long-horizon streaming, consistent spatial memory, and precise user control. However, most existing approaches address only one of these aspects in isolation, as achieving all three simultaneously is highly challenging-for example, long-term memory mechanisms often degrade real-time performance. In this work, we present RELIC, a unified framework that tackles these three challenges altogether. Given a single image and a text description, RELIC enables memory-aware, long-duration exploration of arbitrary scenes in real time. Built upon recent autoregressive video-diffusion distillation techniques, our model represents long-horizon memory using highly compressed historical latent tokens encoded with both relative actions and absolute camera poses within the KV cache. This compact, camera-aware memory structure supports implicit 3D-consistent content retrieval and enforces long-term coherence with minimal computational overhead. In parallel, we fine-tune a bidirectional teacher video model to generate sequences beyond its original 5-second training horizon, and transform it into a causal student generator using a new memory-efficient self-forcing paradigm that enables full-context distillation over long-duration teacher as well as long student self-rollouts. Implemented as a 14B-parameter model and trained on a curated Unreal Engine-rendered dataset, RELIC achieves real-time generation at 16 FPS while demonstrating more accurate action following, more stable long-horizon streaming, and more robust spatial-memory retrieval compared with prior work. These capabilities establish RELIC as a strong foundation for the next generation of interactive world modeling.
- Abstract(参考訳): 真にインタラクティブな世界モデルは、リアルタイムの長距離ストリーミング、一貫した空間記憶、正確なユーザー制御という3つの重要な要素を必要とする。
しかし、既存のほとんどのアプローチは、これら3つを同時に達成することは非常に困難であり、例えば、長期記憶機構は、しばしばリアルタイムのパフォーマンスを劣化させる。
本稿では,これら3つの課題を完全に解決する統一フレームワークであるRELICを紹介する。
単一の画像とテキスト記述が与えられた後、RELICは任意のシーンをリアルタイムにメモリを意識した長期探索を可能にする。
近年の自己回帰式ビデオ拡散蒸留技術に基づいて,KVキャッシュ内での絶対的なカメラポーズと相対的な動作を符号化した,高度に圧縮された歴史的潜在トークンを用いて,長期記憶を表現する。
このコンパクトでカメラ対応のメモリ構造は、暗黙の3D一貫性のあるコンテンツ検索をサポートし、計算オーバーヘッドを最小限に抑えながら長期的なコヒーレンスを強制する。
並行して、双方向の教師ビデオモデルを微調整して、元の5秒のトレーニング地平線を超えてシーケンスを生成し、それを、長期教師と長期学生のセルフロールアウトでフルコンテクストの蒸留を可能にする新しいメモリ効率の自己強制パラダイムを用いて、因果学生ジェネレータに変換する。
14Bパラメータモデルとして実装され、キュレートされたUnreal EngineレンダリングデータセットでトレーニングされたRELICは、16 FPSでリアルタイム生成を実現すると同時に、より正確なアクション、より安定したロングホライゾンストリーミング、より堅牢な空間メモリ検索を示す。
これらの能力は、次世代のインタラクティブな世界モデリングの強力な基盤として、RELICを確立します。
関連論文リスト
- Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - Spatia: Video Generation with Updatable Spatial Memory [60.21619361473996]
Spatiaは空間記憶を意識したビデオ生成フレームワークで、3Dシーンポイントクラウドを永続的な空間記憶として保存する。
Spatiaは、この空間記憶上にコンディションされたビデオクリップを反復的に生成し、視覚SLAMを通じて継続的に更新する。
Spatiaは、明示的なカメラ制御や3D対応のインタラクティブな編集などのアプリケーションを可能にし、スケーラブルでメモリ駆動のビデオ生成のための幾何学的な基盤となるフレームワークを提供する。
論文 参考訳(メタデータ) (2025-12-17T18:59:59Z) - WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling [34.486078065308995]
WorldPlay(ワールドプレイ)は、リアルタイムでインタラクティブな世界モデリングと長期的幾何整合性を実現するストリーミングビデオ拡散モデルである。
ユーザのキーボードやマウスの入力に応答して,ロバストなアクション制御を可能にするために,デュアルアクション表現を使用する。
また,メモリ・アウェア・モデルのための新しい蒸留法であるContext Forcingを提案する。
論文 参考訳(メタデータ) (2025-12-16T17:22:46Z) - VideoSSM: Autoregressive Long Video Generation with Hybrid State-Space Memory [42.2374676860638]
自己回帰(AR)拡散は、フレームを因果的に生成することで、ストリーミングでインタラクティブな長ビデオ生成を可能にする。
微小スケールの地平線上でのコヒーレンスを維持することは、蓄積したエラー、動きのドリフト、およびコンテンツ反復のために依然として困難である。
我々は、AR拡散をハイブリッドな状態空間メモリと統合する長ビデオモデルVideoSSMを提案する。
論文 参考訳(メタデータ) (2025-12-04T07:06:02Z) - Memory Forcing: Spatio-Temporal Memory for Consistent Scene Generation on Minecraft [45.363427511806385]
Memory Forcingは、トレーニングプロトコルとジオメトリインデックス付き空間メモリを組み合わせた学習フレームワークである。
メモリフォーシングは,様々な環境において,長期的空間整合性と生成品質に優れることを示す。
論文 参考訳(メタデータ) (2025-10-03T17:35:16Z) - Pack and Force Your Memory: Long-form and Consistent Video Generation [26.53691150499802]
ロングフォームビデオ生成は2つの課題を提示します。
モデルは、自動回帰復号に固有のエラーの蓄積を防止しながら、長距離依存関係をキャプチャしなければなりません。
MemoryPackとDirect Forcingは、長期ビデオ生成のコンテキスト一貫性と信頼性を大幅に向上させる。
論文 参考訳(メタデータ) (2025-10-02T08:22:46Z) - LONG3R: Long Sequence Streaming 3D Reconstruction [29.79885827038617]
Long3Rは、より長いシーケンス上でのマルチビュー3Dシーン再構成をストリーミングするために設計された新しいモデルである。
本モデルでは,新たな観測値の更新と更新を繰り返すことで,リアルタイム処理を実現している。
実験により、LONG3Rは、特に長いシーケンスにおいて、最先端のストリーミング手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-07-24T09:55:20Z) - VMem: Consistent Interactive Video Scene Generation with Surfel-Indexed View Memory [55.73900731190389]
Surfel-Indexed View Memory (VMem) は、過去のビューを記憶するメモリモジュールであり、それらが観測した3次元表面要素(サーフェル)に基づいて幾何学的にインデックス化することで、過去のビューを記憶する。
VMemは、新しいビューを生成する際に、最も関連性の高い過去のビューを効率的に検索することを可能にする。
論文 参考訳(メタデータ) (2025-06-23T17:59:56Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。
提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。
我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文 参考訳(メタデータ) (2024-01-11T16:48:44Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。