論文の概要: Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction
- arxiv url: http://arxiv.org/abs/2603.07083v1
- Date: Sat, 07 Mar 2026 07:41:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.797767
- Title: Dreamer-CDP: Improving Reconstruction-free World Models Via Continuous Deterministic Representation Prediction
- Title(参考訳): Dreamer-CDP:連続決定論的表現予測による再構成不要世界モデルの改善
- Authors: Michael Hauri, Friedemann Zenke,
- Abstract要約: 連続的決定論的表現に定義されたJEPAスタイルの予測器を導入する。
本手法は,DreamerのCrafterにおける性能と一致し,このベンチマーク上での効果的な世界モデル学習の再現性を実証する。
- 参考スコア(独自算出の注目度): 8.228889210180268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) agents operating in high-dimensional observation spaces, such as Dreamer, rely on learning abstract representations for effective planning and control. Existing approaches typically employ reconstruction-based objectives in the observation space, which can render representations sensitive to task-irrelevant details. Recent alternatives trade reconstruction for auxiliary action prediction heads or view augmentation strategies, but perform worse in the Crafter environment than reconstruction-based methods. We close this gap between Dreamer and reconstruction-free models by introducing a JEPA-style predictor defined on continuous, deterministic representations. Our method matches Dreamer's performance on Crafter, demonstrating effective world model learning on this benchmark without reconstruction objectives.
- Abstract(参考訳): モデルベース強化学習(MBRL)エージェントは、Dreamerのような高次元観測空間で動作し、効率的な計画と制御のための抽象表現の学習に依存している。
既存のアプローチでは、通常、観察空間における再構成に基づく目的を用いており、タスク非関連の詳細に敏感な表現を描画することができる。
近年の代替手段は、補助行動予測ヘッドやビュー増強戦略の貿易再建であるが、再建に基づく手法よりもクラフト環境では悪化している。
連続的決定論的表現に定義されたJEPAスタイルの予測器を導入することで、ドリーマーと復元不要モデルの間のこのギャップを埋める。
本手法は,DreamerのCrafterにおける性能と一致し,このベンチマーク上での効果的な世界モデル学習の再現性を実証する。
関連論文リスト
- Iterative Deployment Improves Planning Skills in LLMs [36.668436209940516]
大規模言語モデル (LLM) の反復的展開は, 結果のモデルの性質を著しく変化させることができることを示す。
このメカニズムを様々な計画領域でテストすることにより、計画スキルの大幅な改善を観察する。
次に, 反復的展開が外ループにおける強化学習(RL)訓練を効果的に実施することを示す理論的解析を行った。
論文 参考訳(メタデータ) (2025-12-31T16:03:14Z) - Bounding Distributional Shifts in World Modeling through Novelty Detection [15.354352209595973]
本研究では, 学習モデルが学習データ分布から逸脱しないように, 新規性検知器として変分オートエンコーダを用いる。
提案手法は,データ効率の観点から最先端のソリューションを改良する。
論文 参考訳(メタデータ) (2025-08-08T07:42:14Z) - Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z) - Latent Diffusion Planning for Imitation Learning [78.56207566743154]
Latent Diffusion Planning (LDP) は、プランナーと逆ダイナミクスモデルからなるモジュラーアプローチである。
行動予測からプランニングを分離することにより、LDPは最適なデータと行動自由データのより密集した監視信号の恩恵を受けることができる。
シミュレーションされた視覚ロボット操作タスクにおいて、LDPは最先端の模倣学習アプローチより優れている。
論文 参考訳(メタデータ) (2025-04-23T17:53:34Z) - Policy-shaped prediction: avoiding distractions in model-based reinforcement learning [2.0739760901716755]
本研究では,事前訓練されたセグメンテーションモデルの相乗効果,タスク認識の再構築損失,および逆学習により,世界モデルの能力に焦点を合わせる方法を開発した。
提案手法は, イントラクタの影響を低減し, 頑健なモデルベース強化学習に向けての進歩である。
論文 参考訳(メタデータ) (2024-12-08T00:21:37Z) - Jointly Training and Pruning CNNs via Learnable Agent Guidance and Alignment [69.33930972652594]
本稿では,CNNモデルの重みと構造的プーン構造を協調的に学習するための新しい構造的プルーニング手法を提案する。
本手法の中核となる要素は強化学習(RL)エージェントであり,その動作がCNNモデルの階層のプルーニング比を決定する。
我々は,モデルの重みとエージェントのポリシーを反復的に訓練し,共同訓練と刈り取りを行う。
論文 参考訳(メタデータ) (2024-03-28T15:22:29Z) - ZhiJian: A Unifying and Rapidly Deployable Toolbox for Pre-trained Model
Reuse [59.500060790983994]
本稿では、PyTorchバックエンドを利用して、モデル再利用のための包括的でユーザフレンドリなツールボックスであるZhiJianを紹介する。
ZhiJianは、PTMによるターゲットアーキテクチャ構築、PTMによるターゲットモデルチューニング、およびPTMに基づく推論を含む、モデル再利用に関するさまざまな視点を統一する新しいパラダイムを提示している。
論文 参考訳(メタデータ) (2023-08-17T19:12:13Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Goal-Directed Planning for Habituated Agents by Active Inference Using a
Variational Recurrent Neural Network [5.000272778136268]
本研究では, 予測符号化(PC)とアクティブ推論(AIF)フレームワークが, 低次元潜在状態空間における事前分布を学習することにより, より優れた一般化を実現できることを示す。
提案モデルでは, 最適潜伏変数を推定し, 実験結果の最小化のためのシナプス重みを推定することにより学習を行う。
提案手法は,シミュレーションにおけるロボットタスクと複雑なロボットタスクの両方を用いて評価し,限られた学習データを用いた学習における十分な一般化を実証した。
論文 参考訳(メタデータ) (2020-05-27T06:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。