論文の概要: Long-Context State-Space Video World Models
- arxiv url: http://arxiv.org/abs/2505.20171v1
- Date: Mon, 26 May 2025 16:12:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 19:27:26.929202
- Title: Long-Context State-Space Video World Models
- Title(参考訳): 長期状態空間ビデオワールドモデル
- Authors: Ryan Po, Yotam Nitzan, Richard Zhang, Berlin Chen, Tri Dao, Eli Shechtman, Gordon Wetzstein, Xun Huang,
- Abstract要約: 本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。
メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
- 参考スコア(独自算出の注目度): 66.28743632951218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video diffusion models have recently shown promise for world modeling through autoregressive frame prediction conditioned on actions. However, they struggle to maintain long-term memory due to the high computational cost associated with processing extended sequences in attention layers. To overcome this limitation, we propose a novel architecture leveraging state-space models (SSMs) to extend temporal memory without compromising computational efficiency. Unlike previous approaches that retrofit SSMs for non-causal vision tasks, our method fully exploits the inherent advantages of SSMs in causal sequence modeling. Central to our design is a block-wise SSM scanning scheme, which strategically trades off spatial consistency for extended temporal memory, combined with dense local attention to ensure coherence between consecutive frames. We evaluate the long-term memory capabilities of our model through spatial retrieval and reasoning tasks over extended horizons. Experiments on Memory Maze and Minecraft datasets demonstrate that our approach surpasses baselines in preserving long-range memory, while maintaining practical inference speeds suitable for interactive applications.
- Abstract(参考訳): 近年,ビデオ拡散モデルでは,行動に条件付き自己回帰的フレーム予測による世界モデリングが期待されている。
しかし、注意層の拡張シーケンス処理に伴う計算コストが高いため、長期記憶の維持に苦慮している。
この制限を克服するために、状態空間モデル(SSM)を活用して時間記憶を拡張し、計算効率を損なうことなく新しいアーキテクチャを提案する。
非因果視覚タスクにSSMを適合させる従来の手法とは異なり、本手法は因果シーケンスモデリングにおけるSSMの本質的な利点を完全に活用する。
我々の設計の中心はブロックワイズSSMスキャン方式であり、連続するフレーム間のコヒーレンスを確保するため、空間整合性から拡張時記憶への切り離しを戦略的に行う。
本研究では,空間探索と拡張地平線上の推論タスクを通じて,モデルの長期記憶能力を評価する。
メモリ迷路とMinecraftデータセットの実験は、我々のアプローチが、対話型アプリケーションに適した実用的な推論速度を維持しながら、長距離メモリ保存のベースラインを超えることを示した。
関連論文リスト
- WORLDMEM: Long-term Consistent World Simulation with Memory [20.450750381415965]
WorldMemは、メモリフレームとステートを格納するメモリユニットで構成されるメモリバンクでシーン生成を強化するフレームワークである。
本手法は,重要な視点や時間的ギャップの下でも,事前に観察されたシーンを正確に再構成することができる。
論文 参考訳(メタデータ) (2025-04-16T17:59:30Z) - FLAMES: A Hybrid Spiking-State Space Model for Adaptive Memory Retention in Event-Based Learning [16.60622265961373]
FLAMESは構造化状態空間力学とイベント駆動型計算を統合するハイブリッドフレームワークである。
ニューロモルフィックコンピューティングと構造化シーケンスモデリングをブリッジすることで、FLAMESはイベント駆動システムにおいてスケーラブルな長距離推論を可能にする。
論文 参考訳(メタデータ) (2025-04-02T00:08:19Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - Enhancing Memory and Imagination Consistency in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、拡散モデルと線形時間状態空間モデルを統合し、メモリ保持と時間的一貫性を向上させる新しいフレームワークである。
複数のベンチマークで得られた結果から,EDELINEの長期タスクにおける事前ベースラインに対する優位性とロバスト性を示す。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - MeMSVD: Long-Range Temporal Structure Capturing Using Incremental SVD [27.472705540825316]
本論文は、長時間の時間窓上での人間の行動を認識すること(最大数分)を目標とする長期映像理解について述べる。
本稿では,Singular Value Decomposition を用いて取得したメモリの低ランク近似に基づくアテンションベースのスキームの代替を提案する。
提案手法には2つの利点がある: (a) 複雑度を1桁以上削減し, (b) メモリベース計算の効率的な実装が可能である。
論文 参考訳(メタデータ) (2024-06-11T12:03:57Z) - MEGAN: Memory Enhanced Graph Attention Network for Space-Time Video
Super-Resolution [8.111645835455658]
時空ビデオスーパー解像度(STVSR)は、対応する低フレームレートの低解像度ビデオシーケンスから高解像度ビデオシーケンスを構築することを目的としている。
近年の時空超解像における時空間情報の考察の成功に触発されて,本研究の主な目的は空間的・時空間的相関を十分に考慮することである。
論文 参考訳(メタデータ) (2021-10-28T17:37:07Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。