論文の概要: Gaze Into the Abyss -- Planning to Seek Entropy When Reward is Scarce
- arxiv url: http://arxiv.org/abs/2505.16787v1
- Date: Thu, 22 May 2025 15:28:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.397904
- Title: Gaze Into the Abyss -- Planning to Seek Entropy When Reward is Scarce
- Title(参考訳): ギャズ・イン・ザ・アビズ - 逆戻りする時、エントロピーを探索する計画
- Authors: Ashish Sundar, Chunbo Luo, Xiaoyang Wang,
- Abstract要約: 本稿では,短時間の潜伏予測を用いて,高エントロピー状態の予測と探索を積極的に行う新しい手法を提案する。
提案する階層型プランナは,いつ計画を立てるか,地平線の長さを計画し,報酬とエントロピーの重み付けを動的に行う。
提案手法は,Dreamerのコンバージェンスにおいて,Dreamerのコンバージェンスよりも50%高速で,Dreamerが必要とする環境ステップの60%に,想像力で訓練されたポリシーが収束する。
- 参考スコア(独自算出の注目度): 6.208654695856247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model-based reinforcement learning (MBRL) offers an intuitive way to increase the sample efficiency of model-free RL methods by simultaneously training a world model that learns to predict the future. MBRL methods have progressed by largely prioritising the actor; optimising the world model learning has been neglected meanwhile. Improving the fidelity of the world model and reducing its time to convergence can yield significant downstream benefits, one of which is improving the ensuing performance of any actor it may train. We propose a novel approach that anticipates and actively seeks out high-entropy states using short-horizon latent predictions generated by the world model, offering a principled alternative to traditional curiosity-driven methods that chase once-novel states well after they were stumbled into. While many model predictive control (MPC) based methods offer similar alternatives, they typically lack commitment, synthesising multi step plans after every step. To mitigate this, we present a hierarchical planner that dynamically decides when to replan, planning horizon length, and the weighting between reward and entropy. While our method can theoretically be applied to any model that trains its own actors with solely model generated data, we have applied it to just Dreamer as a proof of concept. Our method finishes the Miniworld procedurally generated mazes 50% faster than base Dreamer at convergence and the policy trained in imagination converges in only 60% of the environment steps that base Dreamer needs.
- Abstract(参考訳): モデルベース強化学習(MBRL)は、未来を予測するために学習する世界モデルを同時に訓練することにより、モデルフリーRL法のサンプル効率を向上させる直感的な方法を提供する。
MBRL法はアクターの優先順位付けによって進歩しており、世界モデル学習の最適化は無視されている。
世界モデルの忠実さを向上し、収束までの時間を短縮すれば、ダウンストリームのメリットが大幅に向上する可能性がある。
本研究では,世界モデルが生み出す短水平潜伏予測を用いて,高エントロピー状態の予測と探索を積極的に行う新しい手法を提案する。
多くのモデル予測制御(MPC)ベースの手法は類似の代替手段を提供するが、一般的にはコミットメントを欠き、ステップ毎に複数のステッププランを合成する。
これを緩和するために、いつ計画を立てるか、地平線の長さを計画し、報酬とエントロピーの間の重み付けを動的に決定する階層型プランナーを提案する。
我々の手法は理論上、単にモデル生成データでアクターを訓練するモデルに適用できるが、概念実証として単にドリーマーに適用しただけである。
提案手法は,Dreamerのコンバージェンスにおいて,Dreamerのコンバージェンスよりも50%高速で,Dreamerが必要とする環境ステップの60%に,想像力で訓練されたポリシーが収束する。
関連論文リスト
- Multimodal Dreaming: A Global Workspace Approach to World Model-Based Reinforcement Learning [2.5749046466046903]
強化学習(Reinforcement Learning, RL)では、世界モデルはエージェントの行動に応じて環境がどのように進化するかを捉えることを目的としている。
潜在空間内での夢のプロセスの実行は、より少ない環境ステップでのトレーニングを可能にすることを示す。
我々は、GWとWorld Modelsの組み合わせは、RLエージェントの意思決定を改善する大きな可能性を秘めていると結論づける。
論文 参考訳(メタデータ) (2025-02-28T15:24:17Z) - Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。
しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。
状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文 参考訳(メタデータ) (2025-02-27T15:05:25Z) - Predictive Planner for Autonomous Driving with Consistency Models [5.966385886363771]
軌道予測と計画は、自動運転車が動的環境下で安全かつ効率的に走行するために不可欠である。
近年の拡散型生成モデルはマルチエージェント軌道生成において有望であるが,その遅いサンプリングは高周波計画タスクには適さない。
我々は,エゴ車両の航法目標に基づいて,エゴと周辺エージェントの共同分布からサンプルを採取する予測プランナを構築するために,一貫性モデルを活用する。
論文 参考訳(メタデータ) (2025-02-12T00:26:01Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Evolutionary Planning in Latent Space [7.863826008567604]
プランニングは、いくつかの望ましい特性を持つ強化学習の強力なアプローチである。
我々は、ラテントスペースにおける進化的計画を可能にする世界モデルを学ぶ。
ランダムなポリシーからのロールアウトでブートストラップし、より正確な計画ポリシーからのロールアウトで反復的に修正することで、世界のモデルを構築する方法を示します。
論文 参考訳(メタデータ) (2020-11-23T09:21:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。