Fugu-MT 論文翻訳(概要): Facing off World Model Backbones: RNNs, Transformers, and S4

論文の概要: Facing off World Model Backbones: RNNs, Transformers, and S4

arxiv url: http://arxiv.org/abs/2307.02064v1
Date: Wed, 5 Jul 2023 07:00:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-06 14:54:46.401129
Title: Facing off World Model Backbones: RNNs, Transformers, and S4
Title（参考訳）: World Modelのバックボーンに挑戦する - RNN、Transformers、S4
Authors: Fei Deng, Junyeong Park, Sungjin Ahn
Abstract要約: 世界モデルは、モデルベース強化学習(MBRL)エージェントの基本的な構成要素である。 S4WMはS4をベースとした世界初の世界モデルであり、潜在想像力によって高次元画像列を生成できる。
参考スコア（独自算出の注目度）: 20.097806025977764
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: World models are a fundamental component in model-based reinforcement learning (MBRL) agents. To perform temporally extended and consistent simulations of the future in partially observable environments, world models need to possess long-term memory. However, state-of-the-art MBRL agents, such as Dreamer, predominantly employ recurrent neural networks (RNNs) as their world model backbone, which have limited memory capacity. In this paper, we seek to explore alternative world model backbones for improving long-term memory. In particular, we investigate the effectiveness of Transformers and Structured State Space Sequence (S4) models, motivated by their remarkable ability to capture long-range dependencies in low-dimensional sequences and their complementary strengths. We propose S4WM, the first S4-based world model that can generate high-dimensional image sequences through latent imagination. Furthermore, we extensively compare RNN-, Transformer-, and S4-based world models across four sets of environments, which we have specifically tailored to assess crucial memory capabilities of world models, including long-term imagination, context-dependent recall, reward prediction, and memory-based reasoning. Our findings demonstrate that S4WM outperforms Transformer-based world models in terms of long-term memory, while exhibiting greater efficiency during training and imagination. These results pave the way for the development of stronger MBRL agents.
Abstract（参考訳）: 世界モデルはモデルベース強化学習(mbrl)エージェントの基本コンポーネントである。部分的に観測可能な環境で未来を時間的に拡張し一貫したシミュレーションを行うには、世界モデルは長期記憶を持つ必要がある。しかしながら、dreamerのような最先端のmbrlエージェントは、メモリ容量を制限した世界モデルバックボーンとしてrecurrent neural networks(rnn)を主に採用している。本稿では,長期記憶改善のための代替世界モデルバックボーンについて検討する。特に、トランスフォーマーと構造化状態空間シーケンス(S4)モデルの有効性について検討し、低次元列における長距離依存性と相補的強みを捉えることによる顕著な能力に動機づけられた。 S4WMはS4をベースとした世界初の世界モデルであり、潜在想像力によって高次元画像列を生成できる。さらに,RNN-, Transformer-, S4-based world modelを4つの環境群で比較し, 長期的想像力, 文脈依存リコール, 報酬予測, メモリベース推論など, 世界モデルの重要な記憶能力の評価に特化している。以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率が優れていた。これらの結果は、より強力なMBRL剤の開発への道を開いた。

関連論文リスト

Memory Caching: RNNs with Growing Memory [56.25483647131372]
メモリ状態(隠された状態)のチェックポイントをキャッシュすることで、リカレントモデルを強化する技術であるメモリキャッシュ(MC)を導入する。我々は,ゲートアグリゲーションとスパース選択機構を含むMCの4つの変種を提案し,それらが線形メモリモジュールおよび深部メモリモジュールに与える影響について議論する。その結果,トランスフォーマーの精度は高いが,我々のMC変種は競争性能を示し,トランスフォーマーとのギャップを埋め,最先端のリカレントモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2026-02-27T18:53:41Z)
TeleWorld: Towards Dynamic Multimodal Synthesis with a 4D World Model [53.555353366322464]
我々は,映像生成,動的シーン再構成,長期記憶をクローズドループシステム内で統合するリアルタイム多モード4DワールドモデリングフレームワークTeleWorldを提案する。提案手法は,動的オブジェクトモデリングと静的シーン表現のシームレスな統合を実現し,現実的でインタラクティブで計算可能な合成システムに向けて世界モデルを推し進める。
論文参考訳（メタデータ） (2025-12-31T18:31:46Z)
TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。 MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文参考訳（メタデータ） (2025-12-12T11:55:16Z)
High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation [34.450956424316196]
ビデオに基づく人間のポーズ推定には高分解能時間表現のモデル化が不可欠である。現在の最先端の手法は、大域的および局所的動的モデリングのバランスをとるのが難しいのが普通である。本稿では,VHPEのグローバルおよびローカルな高解像度表現を個別に学習するために,Mambaコンテキストを拡張したフレームワークを提案する。
論文参考訳（メタデータ） (2025-10-13T05:18:27Z)
OmniWorld: A Multi-Domain and Multi-Modal Dataset for 4D World Modeling [86.12242953301121]
我々は,4次元世界モデリングに特化した大規模マルチドメインマルチモーダルデータセットであるOmniWorldを紹介した。既存の合成データセットと比較して、OmniWorld-Gameはよりリッチなモダリティカバレッジ、より大きなスケール、より現実的な動的インタラクションを提供する。我々は、複雑な4D環境のモデリングにおいて、現在の最先端(SOTA)アプローチの限界を明らかにするための挑戦的なベンチマークを確立する。
論文参考訳（メタデータ） (2025-09-15T17:59:19Z)
BrainSymphony: A Transformer-Driven Fusion of fMRI Time Series and Structural Connectivity [2.3486335708866606]
BrainSymphonyは、ニューロイメージングのための軽量でパラメータ効率の良い基礎モデルである。かなり小さなパブリックデータセットで事前トレーニングされた状態で、最先端のパフォーマンスを実現する。 BrainSymphonyは、アーキテクチャを意識したマルチモーダルモデルがより大きなモデルを上回る可能性があることを証明している。
論文参考訳（メタデータ） (2025-06-23T06:00:21Z)
Video World Models with Long-term Spatial Memory [110.530715838396]
本稿では,ビデオワールドモデルの長期的整合性を高める新しい枠組みを提案する。我々のフレームワークは、長期空間記憶から情報を保存・取得する機構を含んでいる。評価の結果,関連するベースラインに比べて品質,一貫性,コンテキスト長が向上した。
論文参考訳（メタデータ） (2025-06-05T17:42:34Z)
Building spatial world models from sparse transitional episodic memories [1.3459777108901956]
ニューラルネットワークは,スパースや不連続なエピソード記憶から周囲の空間モデルを構築することができることを示す。本研究では,Epsodic Space World Model (ESWM) はサンプル効率が高く,環境のロバストな表現を構築するためには最小限の観測が必要であることを示す。
論文参考訳（メタデータ） (2025-05-19T19:56:24Z)
World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。 mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文参考訳（メタデータ） (2025-05-03T06:23:18Z)
SegResMamba: An Efficient Architecture for 3D Medical Image Segmentation [2.979183050755201]
本稿では,SegResMambaという医用画像の効率的な3次元分割モデルを提案する。我々のモデルは、他の最先端(SOTA)アーキテクチャと比較して、トレーニング中に半分未満のメモリを使用します。
論文参考訳（メタデータ） (2025-03-10T18:40:28Z)
Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T15:05:25Z)
DMWM: Dual-Mind World Model with Long-Term Imagination [53.98633183204453]
本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
論文参考訳（メタデータ） (2025-02-11T14:40:57Z)
EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2025-02-01T15:49:59Z)
4D Gaussian Splatting: Modeling Dynamic Scenes with Native 4D Primitives [116.2042238179433]
本稿では,動的シーンを非拘束な4次元ボリューム学習問題とみなす。本研究では,4次元ガウス原始体の集合を対象とした動的シーンを明示的な幾何学的特徴と外観的特徴で表現する。このアプローチは、下層のフォトリアリスティック時間体積を適合させることで、空間と時間の関連情報をキャプチャすることができる。特に、我々の4DGSモデルは、複雑なダイナミックシーンのための、高解像度で斬新なビューのリアルタイムレンダリングをサポートする最初のソリューションです。
論文参考訳（メタデータ） (2024-12-30T05:30:26Z)
Automatically Learning Hybrid Digital Twins of Dynamical Systems [56.69628749813084]
Digital Twins (DT)は、現実世界のシステムの状態と時間力学をシミュレートする。 DTは、しばしばデータスカース設定で目に見えない条件に一般化するのに苦労します。本稿では,HDTwinsを自律的に提案し,評価し,最適化するための進化的アルゴリズム(textbfHDTwinGen$)を提案する。
論文参考訳（メタデータ） (2024-10-31T07:28:22Z)
FACTS: A Factored State-Space Framework For World Modelling [24.08175276756845]
本研究では,時空間空間モデリングのための新しいリカレントフレームワークであるtextbfFACTored textbfState-space (textbfFACTS) モデルを提案する。 FACTSフレームワークは、置換可能なメモリ表現を学習するルーティング機構を備えたグラフメモリを構築する。汎用的な世界モデリング設計にもかかわらず、常に最先端のモデルに勝ったり、マッチする。
論文参考訳（メタデータ） (2024-10-28T11:04:42Z)
Drama: Mamba-Enabled Model-Based Reinforcement Learning Is Sample and Parameter Efficient [9.519619751861333]
状態空間モデル(SSM)をベースとした世界モデルを提案する。長期依存関係を効果的にキャプチャしながら、メモリと計算の複雑さを$O(n)$達成します。このモデルはアクセス可能で、市販のラップトップでトレーニングすることができる。
論文参考訳（メタデータ） (2024-10-11T15:10:40Z)
PoseMamba: Monocular 3D Human Pose Estimation with Bidirectional Global-Local Spatio-Temporal State Space Model [7.286873011001679]
単眼ビデオにおける複雑な人間のポーズ推定のための線形相関を用いたSSMに基づく純粋手法を提案する。具体的には、各フレーム内だけでなく、フレーム間の人間の関節関係を包括的にモデル化する、双方向の時間的・時間的ブロックを提案する。この戦略により、より論理的な幾何学的順序付け戦略が提供され、結果として局所空間スキャンが組み合わせられる。
論文参考訳（メタデータ） (2024-08-07T04:38:03Z)
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.94827590977337]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。 Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-22T12:40:03Z)
Mastering Memory Tasks with World Models [12.99255437732525]
現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。本稿では,時間的コヒーレンスを改善するための新しい手法であるRecall to Imagine (R2I)を提案する。 R2Iは、メモリとクレジットの割り当てに挑戦するRLタスクのための新しい最先端技術を確立する。
論文参考訳（メタデータ） (2024-03-07T06:35:59Z)
FullLoRA: Efficiently Boosting the Robustness of Pretrained Vision Transformers [72.83770102062141]
Vision Transformer (ViT) モデルは、様々なコンピュータビジョンタスクにおいて徐々に主流になりつつある。既存の大きなモデルは、トレーニング中のパフォーマンスを優先する傾向があり、ロバストさを無視する可能性がある。従来のLoRAモジュールよりも前に学習可能なレイヤ正規化を取り入れた新しいLNLoRAモジュールを開発した。学習可能なLNLoRAモジュールをViTモデルの主要コンポーネントに組み込むことにより,FullLoRAフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-03T14:08:39Z)
Convolutional State Space Models for Long-Range Spatiotemporal Modeling [65.0993000439043]
ConvS5は、長距離時間モデリングのための効率的な変種である。トランスフォーマーとConvNISTTMは、長い水平移動実験において、ConvLSTMより3倍速く、トランスフォーマーより400倍速くサンプルを生成する一方で、大幅に性能が向上した。
論文参考訳（メタデータ） (2023-10-30T16:11:06Z)
Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。 LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文参考訳（メタデータ） (2022-12-24T15:17:42Z)
TransDreamer: Reinforcement Learning with Transformer World Models [33.34909288732319]
我々はTransDreamerと呼ばれるトランスフォーマーに基づくモデルベース強化学習エージェントを提案する。まず、トランスフォーマー状態空間モデルを紹介し、この世界モデルをトランスフォーマーベースのポリシーネットワークと共有し、トランスフォーマーベースのRLエージェントをトレーニングする安定性を得る。実験では,2次元の視覚的RLと3次元の視覚的RLタスクに対して,メモリベースの推論において,長期のメモリアクセスを必要とする2つの視覚的RLタスクに提案モデルを適用し,これらの複雑なタスクにおいて,提案モデルがドリーマーより優れていることを示す。
論文参考訳（メタデータ） (2022-02-19T00:30:52Z)
STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2021-07-15T02:53:11Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。