論文の概要: WORLDMEM: Long-term Consistent World Simulation with Memory
- arxiv url: http://arxiv.org/abs/2504.12369v1
- Date: Wed, 16 Apr 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-26 03:00:25.60968
- Title: WORLDMEM: Long-term Consistent World Simulation with Memory
- Title(参考訳): WORLDMEM:記憶を伴う長期連続世界シミュレーション
- Authors: Zeqi Xiao, Yushi Lan, Yifan Zhou, Wenqi Ouyang, Shuai Yang, Yanhong Zeng, Xingang Pan,
- Abstract要約: WorldMemは、メモリフレームとステートを格納するメモリユニットで構成されるメモリバンクでシーン生成を強化するフレームワークである。
本手法は,重要な視点や時間的ギャップの下でも,事前に観察されたシーンを正確に再構成することができる。
- 参考スコア(独自算出の注目度): 20.450750381415965
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World simulation has gained increasing popularity due to its ability to model virtual environments and predict the consequences of actions. However, the limited temporal context window often leads to failures in maintaining long-term consistency, particularly in preserving 3D spatial consistency. In this work, we present WorldMem, a framework that enhances scene generation with a memory bank consisting of memory units that store memory frames and states (e.g., poses and timestamps). By employing a memory attention mechanism that effectively extracts relevant information from these memory frames based on their states, our method is capable of accurately reconstructing previously observed scenes, even under significant viewpoint or temporal gaps. Furthermore, by incorporating timestamps into the states, our framework not only models a static world but also captures its dynamic evolution over time, enabling both perception and interaction within the simulated world. Extensive experiments in both virtual and real scenarios validate the effectiveness of our approach.
- Abstract(参考訳): 仮想環境をモデル化し、行動の結果を予測する能力により、世界シミュレーションの人気が高まっている。
しかし、時間的コンテキストの限られたウィンドウは、特に3次元空間的一貫性の維持において、長期的な一貫性を維持するのに失敗することが多い。
本稿では、メモリフレームと状態(例えば、ポーズ、タイムスタンプ)を格納するメモリユニットからなるメモリバンクを用いて、シーン生成を強化するフレームワークであるWorldMemを紹介する。
メモリアテンション機構を用いることで、これらのメモリフレームから、その状態に基づいて関連情報を効果的に抽出することで、重要な視点や時間的ギャップの下でも、事前に観察されたシーンを正確に再構築することができる。
さらに、状態にタイムスタンプを組み込むことで、我々のフレームワークは静的な世界をモデル化するだけでなく、時間とともにその動的進化を捉え、シミュレートされた世界における知覚と相互作用の両方を可能にする。
仮想シナリオと実シナリオの両方における大規模な実験は、我々のアプローチの有効性を検証する。
関連論文リスト
- Occupancy Learning with Spatiotemporal Memory [39.41175479685905]
本稿では,時間的整合性のある3次元占有特徴を効果的に学習するシーンレベルの占有表現学習フレームワークを提案する。
提案手法は,多フレーム入力間の時間的依存性を利用して,3次元占有予測タスクの時間的表現を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-06T17:59:52Z) - GTAD: Global Temporal Aggregation Denoising Learning for 3D Semantic Occupancy Prediction [14.549066678968368]
本稿では,全体的3次元シーン理解のためのグローバルな時間的アグリゲーション・デノベーションネットワークGTADを提案する。
提案手法では,現在時点からの局所時間的特徴と過去の時系列からのグローバル時間的特徴を集約するために,モデル内潜時分解ネットワークを用いている。
論文 参考訳(メタデータ) (2025-07-28T16:18:29Z) - Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。
我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。
評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文 参考訳(メタデータ) (2025-06-05T17:42:34Z) - 3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。
現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。
本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:59:13Z) - Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文 参考訳(メタデータ) (2025-05-26T16:12:41Z) - Learning 3D Persistent Embodied World Models [84.40585374179037]
我々は、以前に生成されたコンテンツの明示的なメモリを備えた、新しい永続的エンボディド・ワールドモデルを導入する。
映像拡散モデルでは, 映像拡散モデルにより, エージェントの今後の観察のRGB-D映像が予測される。
この生成は、環境の永続的な3Dマップに集約される。
論文 参考訳(メタデータ) (2025-05-05T17:59:17Z) - LMPOcc: 3D Semantic Occupancy Prediction Utilizing Long-Term Memory Prior from Historical Traversals [4.970345700893879]
LMPOcc(Longal Memory Prior Occupancy)は、歴史的知覚出力から派生した長期記憶の優先順位を利用する最初の3次元占有予測手法である。
本研究では,長期記憶を組み込んだプラグイン・アンド・プレイアーキテクチャを導入し,グローバルな占有表現を同時に構築しながら,局所的な知覚を高める。
論文 参考訳(メタデータ) (2025-04-18T09:58:48Z) - LLaFEA: Frame-Event Complementary Fusion for Fine-Grained Spatiotemporal Understanding in LMMs [55.81291976637705]
大規模モデル(LMM)はシーン理解に優れるが、言語的表現と視覚的表現の微妙なアライメントのために微妙な時間的推論に苦慮する。
既存の方法は、フレームベースのビデオからテキストの位置と期間を視覚空間にマッピングするが、時間的調整を制限する時間的間隔に悩まされる。
LFEAを導入してイベントカメラを時間的に密集した認識とフレームイベント融合に活用する。
論文 参考訳(メタデータ) (2025-03-10T05:30:30Z) - Episodic Memories Generation and Evaluation Benchmark for Large Language Models [7.660368798066376]
我々は、人間のような認知に向けてAIを前進させるためには、エピソード記憶能力を大規模言語モデルに統合することが不可欠であると主張している。
本研究では,時間的・空間的文脈をカプセル化し,関連する実体を包含し,詳細な記述を行うための構造的アプローチを開発する。
我々は、汚染のない独自のエピソードメモリベンチマークを合成し、LLM性能を評価するためにオープンソースコードとデータセットをリリースする。
論文 参考訳(メタデータ) (2025-01-21T02:16:13Z) - FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。
FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。
汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文 参考訳(メタデータ) (2024-10-28T11:04:42Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Generalizing Event-Based Motion Deblurring in Real-World Scenarios [62.995994797897424]
イベントベースの動作遅延は、低レイテンシイベントを活用することで、有望な結果を示している。
本研究では,フレキシブルな入力空間スケールを実現するとともに,時間スケールの異なる動きのぼかしから学習できるスケール対応ネットワークを提案する。
次に,実世界のデータ分布に適合する2段階の自己教師型学習手法を開発した。
論文 参考訳(メタデータ) (2023-08-11T04:27:29Z) - Efficient Global-Local Memory for Real-time Instrument Segmentation of
Robotic Surgical Video [53.14186293442669]
手術器具の知覚における重要な手がかりとして,隣接するフレームからの局所的時間依存性と,長距離における大域的意味的相関があげられる。
本稿では,グローバルとローカルの両方の時間的知識を関連付ける新しいデュアルメモリネットワーク(DMNet)を提案する。
本手法は,実時間速度を維持しながらセグメント化精度を向上する手法である。
論文 参考訳(メタデータ) (2021-09-28T10:10:14Z) - Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。
提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。
実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2021-03-24T02:08:46Z) - HM4: Hidden Markov Model with Memory Management for Visual Place
Recognition [54.051025148533554]
自律運転における視覚的位置認識のための隠れマルコフモデルを提案する。
我々のアルゴリズムはHM$4$と呼ばれ、時間的ルックアヘッドを利用して、有望な候補画像をパッシブストレージとアクティブメモリ間で転送する。
固定被覆領域に対して一定の時間と空間推定が可能であることを示す。
論文 参考訳(メタデータ) (2020-11-01T08:49:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。