論文の概要: Optimistic World Models: Efficient Exploration in Model-Based Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2602.10044v1
- Date: Tue, 10 Feb 2026 18:11:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.732546
- Title: Optimistic World Models: Efficient Exploration in Model-Based Deep Reinforcement Learning
- Title(参考訳): 最適世界モデル:モデルに基づく深層強化学習における効率的な探索
- Authors: Akshay Mete, Shahid Aamir Sheikh, Tzu-Hsiang Lin, Dileep Kalathil, P. R. Kumar,
- Abstract要約: 楽観的探索のための原則的でスケーラブルなフレームワークであるOptimistic World Models (OWMs)を紹介する。
OWMは楽観的なダイナミクス損失を伴う拡張によるモデル学習に直接楽観性を取り入れる。
OWMは2つの最先端の世界モデルアーキテクチャ内でインスタンス化され、Optimistic DreamerV3とOptimistic STORMに導かれる。
- 参考スコア(独自算出の注目度): 12.864604506942294
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient exploration remains a central challenge in reinforcement learning (RL), particularly in sparse-reward environments. We introduce Optimistic World Models (OWMs), a principled and scalable framework for optimistic exploration that brings classical reward-biased maximum likelihood estimation (RBMLE) from adaptive control into deep RL. In contrast to upper confidence bound (UCB)-style exploration methods, OWMs incorporate optimism directly into model learning by augmentation with an optimistic dynamics loss that biases imagined transitions toward higher-reward outcomes. This fully gradient-based loss requires neither uncertainty estimates nor constrained optimization. Our approach is plug-and-play with existing world model frameworks, preserving scalability while requiring only minimal modifications to standard training procedures. We instantiate OWMs within two state-of-the-art world model architectures, leading to Optimistic DreamerV3 and Optimistic STORM, which demonstrate significant improvements in sample efficiency and cumulative return compared to their baseline counterparts.
- Abstract(参考訳): 効率的な探索は、特にスパース・リワード環境において強化学習(RL)において中心的な課題である。
我々は,古典的な報酬バイアス付き最大推定(RBMLE)を適応制御から深いRLに導入する,楽観的探索のための原理的かつスケーラブルなフレームワークであるOptimistic World Models(OWMs)を紹介する。
上位信頼境界(UCB)スタイルの探索法とは対照的に、OWMは最適化を直接モデル学習に組み込む。
この完全な勾配に基づく損失は、不確実性推定や制約付き最適化を必要としない。
我々のアプローチは、既存のワールドモデルフレームワークとプラグイン・アンド・プレイすることで、標準的なトレーニング手順に最小限の変更しか必要とせず、スケーラビリティを保ちます。
OWMは2つの最先端の世界モデルアーキテクチャ内でインスタンス化され、Optimistic DreamerV3とOptimistic STORMに導かれる。
関連論文リスト
- TCPO: Thought-Centric Preference Optimization for Effective Embodied Decision-making [75.29820290660065]
本稿では,効果的な具体的意思決定のための思考中心推論最適化(TCPO)を提案する。
モデルの中間的推論プロセスの整合性を強調し、モデル劣化の問題を緩和する。
ALFWorld環境での実験では、平均成功率は26.67%であり、RL4VLMよりも6%向上している。
論文 参考訳(メタデータ) (2025-09-10T11:16:21Z) - Divergence Minimization Preference Optimization for Diffusion Model Alignment [66.31417479052774]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。
DMPOは、異なるベースモデルとテストセットで既存のテクニックを一貫して上回り、適合させることができる。
論文 参考訳(メタデータ) (2025-07-10T07:57:30Z) - Policy-Driven World Model Adaptation for Robust Offline Model-based Reinforcement Learning [6.189693079685375]
オフラインモデルベースRL(MBRL)は、静的データセットからワールドモデルを明示的に学習する。
政策とともに世界モデルを動的に適用する枠組みを提案する。
我々は,D4RL MuJoCoタスク12件とTokamak Controlタスク3件のアルゴリズムをベンチマークし,その最先端性能を実証した。
論文 参考訳(メタデータ) (2025-05-19T20:14:33Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making [40.53824201182517]
本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。
Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。
また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
論文 参考訳(メタデータ) (2024-11-08T15:01:27Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。