論文の概要: Discrete Codebook World Models for Continuous Control
- arxiv url: http://arxiv.org/abs/2503.00653v1
- Date: Sat, 01 Mar 2025 22:58:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:16:59.810900
- Title: Discrete Codebook World Models for Continuous Control
- Title(参考訳): 継続的制御のための離散コードブックワールドモデル
- Authors: Aidan Scannell, Mohammadreza Nakhaei, Kalle Kujanpää, Yi Zhao, Kevin Sebastian Luck, Arno Solin, Joni Pajarinen,
- Abstract要約: 強化学習(RL)では、世界モデルは内部シミュレータとして機能し、エージェントが環境力学と将来の成果を予測することができる。
離散潜在状態のモデリングは、連続潜在状態よりも利点があり、離散コードブックエンコーディングは、連続制御においてより効果的な表現であることを示す。
我々はDCWM: Discrete Codebook World Modelを紹介した。
- 参考スコア(独自算出の注目度): 24.699268525470135
- License:
- Abstract: In reinforcement learning (RL), world models serve as internal simulators, enabling agents to predict environment dynamics and future outcomes in order to make informed decisions. While previous approaches leveraging discrete latent spaces, such as DreamerV3, have demonstrated strong performance in discrete action settings and visual control tasks, their comparative performance in state-based continuous control remains underexplored. In contrast, methods with continuous latent spaces, such as TD-MPC2, have shown notable success in state-based continuous control benchmarks. In this paper, we demonstrate that modeling discrete latent states has benefits over continuous latent states and that discrete codebook encodings are more effective representations for continuous control, compared to alternative encodings, such as one-hot and label-based encodings. Based on these insights, we introduce DCWM: Discrete Codebook World Model, a self-supervised world model with a discrete and stochastic latent space, where latent states are codes from a codebook. We combine DCWM with decision-time planning to get our model-based RL algorithm, named DC-MPC: Discrete Codebook Model Predictive Control, which performs competitively against recent state-of-the-art algorithms, including TD-MPC2 and DreamerV3, on continuous control benchmarks. See our project website www.aidanscannell.com/dcmpc.
- Abstract(参考訳): 強化学習(RL)では、世界モデルは内部シミュレータとして機能し、エージェントが情報的決定を行うために環境力学と将来の成果を予測することができる。
従来のDreamerV3のような離散潜在空間を利用したアプローチは、離散的なアクション設定や視覚制御タスクにおいて強い性能を示してきたが、状態ベースの連続制御におけるそれらの比較性能は未定のままである。
対照的に、TD-MPC2のような連続潜伏空間を持つ手法は、状態ベースの連続制御ベンチマークにおいて顕著な成功を収めている。
本稿では, 離散遅延状態のモデリングが連続潜時状態よりも有益であることを示し, 離散符号ブックの符号化は, 1ホットやラベルベースの符号化のような代替符号化と比較して, 連続制御においてより効果的な表現であることを示した。
これらの知見に基づいて、我々はDCWMを紹介する: Discrete Codebook World Model, a self-supervised world model with a discrete and stochastic latent space, where latent state are codes from a codebook。
我々は、DCWMと、DC-MPCという名前のモデルベースのRLアルゴリズムを得るための意思決定時計画を組み合わせる。
プロジェクトのWebサイト www.aidanscannell.com/dcmpc をご覧ください。
関連論文リスト
- Stochastic Control for Fine-tuning Diffusion Models: Optimality, Regularity, and Convergence [11.400431211239958]
拡散モデルは生成モデリングの強力なツールとして登場してきた。
微調整拡散モデルのための制御フレームワークを提案する。
PI-FTは線形速度で大域収束することを示す。
論文 参考訳(メタデータ) (2024-12-24T04:55:46Z) - Diffusion Predictive Control with Constraints [51.91057765703533]
制約付き拡散予測制御(DPCC)
トレーニングデータから逸脱可能な、明示的な状態と行動制約を持つ拡散制御アルゴリズム。
DPCCは,学習した制御タスクの性能を維持しつつ,新しいテスト時間制約を満たす上で,既存の手法よりも優れるロボットマニピュレータのシミュレーションを通して示す。
論文 参考訳(メタデータ) (2024-12-12T15:10:22Z) - Bench2Drive-R: Turning Real World Data into Reactive Closed-Loop Autonomous Driving Benchmark by Generative Model [63.336123527432136]
我々は,リアクティブ閉ループ評価を可能にする生成フレームワークであるBench2Drive-Rを紹介する。
既存の自動運転用ビデオ生成モデルとは異なり、提案された設計はインタラクティブなシミュレーションに適したものである。
我々は、Bench2Drive-Rの生成品質を既存の生成モデルと比較し、最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-12-11T06:35:18Z) - Amortized Control of Continuous State Space Feynman-Kac Model for Irregular Time Series [14.400596021890863]
医療、気候、経済などの現実世界のデータセットは、しばしば不規則な時系列として収集される。
本稿では,連続状態空間モデル (ACSSM) を時系列の連続的動的モデリングに用いるためのアモータイズ制御を提案する。
論文 参考訳(メタデータ) (2024-10-08T01:27:46Z) - ControlVAR: Exploring Controllable Visual Autoregressive Modeling [48.66209303617063]
拡散モデル(DM)の出現により、条件付き視覚発生は顕著に進展した。
高価な計算コスト、高い推論遅延、大規模言語モデル(LLM)との統合の難しさといった課題は、DMに代わる方法を模索する必要がある。
本稿では,フレキシブルかつ効率的な条件生成のための視覚自己回帰モデリングにおける画素レベル制御を探求する新しいフレームワークであるControlmoreを紹介する。
論文 参考訳(メタデータ) (2024-06-14T06:35:33Z) - Phased Consistency Models [80.3176677757006]
LCM(Latent Consistency Models)の設計における3つの重要な欠陥を同定する。
設計空間を一般化し,特定された制約に対処する位相整合モデル(PCM)を提案する。
評価の結果,PCMは1段階から16段階のステップ生成設定においてLCMよりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T17:47:19Z) - Goal-Conditioned Predictive Coding for Offline Reinforcement Learning [24.300131097275298]
本研究は, シーケンス・モデリングがトラジェクトリを, ポリシー学習を促進する有用な表現に凝縮する能力を持つかどうかを考察する。
本稿では、強力な軌道表現を導出し、実行ポリシーをもたらすシーケンスモデリングの目的であるゴール・コンディション付き予測符号化を紹介する。
論文 参考訳(メタデータ) (2023-07-07T06:12:14Z) - Autoregressive Dynamics Models for Offline Policy Evaluation and
Optimization [60.73540999409032]
表現的自己回帰ダイナミクスモデルが次の状態の異なる次元を生成し、以前の次元で順次条件付きで報酬を得ることを示す。
また,リプレイバッファを充実させる手段として,自己回帰的ダイナミクスモデルがオフラインポリシー最適化に有用であることを示す。
論文 参考訳(メタデータ) (2021-04-28T16:48:44Z) - Robust Training of Vector Quantized Bottleneck Models [21.540133031071438]
ベクトル量子変分自動エンコーダモデル(VQ-VAEs)を用いた離散表現の信頼性と効率的な訓練法を示す。
教師なし表現学習では、変分オートエンコーダ(VAE)のような連続潜伏変数モデルの代替となる。
論文 参考訳(メタデータ) (2020-05-18T08:23:41Z) - Predictive Coding for Locally-Linear Control [92.35650774524399]
高次元観測と未知のダイナミクスは、多くの実世界の意思決定タスクに最適な制御を適用する際に大きな課題である。
Learning Controllable Embedding (LCE)フレームワークは、観測結果を低次元の潜伏空間に埋め込むことによって、これらの課題に対処する。
理論的には、明示的な次観測予測を予測符号化に置き換えることが可能である。
論文 参考訳(メタデータ) (2020-03-02T18:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。