論文の概要: Learn A Flexible Exploration Model for Parameterized Action Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2501.02774v1
- Date: Mon, 06 Jan 2025 05:33:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:35.665642
- Title: Learn A Flexible Exploration Model for Parameterized Action Markov Decision Processes
- Title(参考訳): パラメータ化行動マルコフ決定過程に対するフレキシブル探索モデル学習
- Authors: Zijian Wang, Bin Wang, Mingwen Shao, Hongbo Dou, Boxiang Tao,
- Abstract要約: モデルベース(MBRL)アルゴリズムであるFLEXploreを提案し,エージェントの学習効率と性能を向上させる。
FLEXploreは他のベースラインと比較して学習効率と性能が優れていることを示す。
- 参考スコア(独自算出の注目度): 8.588866536242145
- License:
- Abstract: Hybrid action models are widely considered an effective approach to reinforcement learning (RL) modeling. The current mainstream method is to train agents under Parameterized Action Markov Decision Processes (PAMDPs), which performs well in specific environments. Unfortunately, these models either exhibit drastic low learning efficiency in complex PAMDPs or lose crucial information in the conversion between raw space and latent space. To enhance the learning efficiency and asymptotic performance of the agent, we propose a model-based RL (MBRL) algorithm, FLEXplore. FLEXplore learns a parameterized-action-conditioned dynamics model and employs a modified Model Predictive Path Integral control. Unlike conventional MBRL algorithms, we carefully design the dynamics loss function and reward smoothing process to learn a loose yet flexible model. Additionally, we use the variational lower bound to maximize the mutual information between the state and the hybrid action, enhancing the exploration effectiveness of the agent. We theoretically demonstrate that FLEXplore can reduce the regret of the rollout trajectory through the Wasserstein Metric under given Lipschitz conditions. Our empirical results on several standard benchmarks show that FLEXplore has outstanding learning efficiency and asymptotic performance compared to other baselines.
- Abstract(参考訳): ハイブリッドアクションモデルは、強化学習(RL)モデリングに対する効果的なアプローチとして広く考えられている。
現在の主流の方法は、パラメータ化アクションマルコフ決定プロセス(PAMDP)の下でエージェントを訓練することであり、特定の環境でうまく機能する。
残念なことに、これらのモデルは複雑なPAMDPにおいて劇的な低学習効率を示すか、生空間と潜伏空間の変換において重要な情報を失う。
エージェントの学習効率と漸近性能を向上させるために,モデルベースRL(MBRL)アルゴリズムFLEXploreを提案する。
FLEXploreはパラメータ化された動作条件付き力学モデルを学び、修正されたモデル予測パス積分制御を使用する。
従来のMBRLアルゴリズムとは異なり、動的損失関数と報酬平滑化処理を慎重に設計し、ゆるくフレキシブルなモデルを学ぶ。
さらに, 状態とハイブリッド動作の相互情報を最大化し, エージェントの探索効率を高めるために, 変分下界を用いる。
理論的には、FLEXploreは、与えられたリプシッツ条件下でのワッサーシュタイン計量によるロールアウト軌道の後悔を軽減することができる。
いくつかの標準ベンチマークにおける実験結果から,FLEXploreの学習効率および漸近性能は,他のベースラインと比較して優れていた。
関連論文リスト
- Traffic expertise meets residual RL: Knowledge-informed model-based residual reinforcement learning for CAV trajectory control [1.5361702135159845]
本稿では,知識インフォームドモデルに基づく残留強化学習フレームワークを提案する。
交通専門家の知識を仮想環境モデルに統合し、基本力学にIntelligent Driver Model(IDM)、残留力学にニューラルネットワークを使用する。
本稿では,従来の制御手法を残差RLと組み合わせて,スクラッチから学習することなく,効率的な学習と政策最適化を容易にする新しい戦略を提案する。
論文 参考訳(メタデータ) (2024-08-30T16:16:57Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Model-based Reinforcement Learning for Parameterized Action Spaces [11.94388805327713]
PAMDPのためのモデルベース強化学習アルゴリズムを提案する。
エージェントはパラメータ化されたアクション条件付き力学モデルを学び、修正されたモデル予測経路積分制御で計画する。
いくつかの標準ベンチマークにおける実験結果から,本アルゴリズムは最先端のPAMDP法よりも優れたサンプリング効率と性能を実現することが示された。
論文 参考訳(メタデータ) (2024-04-03T19:48:13Z) - Learning a model is paramount for sample efficiency in reinforcement
learning control of PDEs [5.488334211013093]
RLエージェントの訓練と並行して動作モデルを学ぶことで,実システムからサンプリングしたデータ量を大幅に削減できることを示す。
また、RLトレーニングのバイアスを避けるために、モデルを反復的に更新することが重要であることも示している。
論文 参考訳(メタデータ) (2023-02-14T16:14:39Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Model-Invariant State Abstractions for Model-Based Reinforcement
Learning [54.616645151708994]
textitmodel-invarianceという新しいタイプの状態抽象化を紹介します。
これにより、状態変数の見当たらない値の新しい組み合わせへの一般化が可能になる。
このモデル不変状態抽象化を通じて最適なポリシーを学習できることを実証する。
論文 参考訳(メタデータ) (2021-02-19T10:37:54Z) - Model-free and Bayesian Ensembling Model-based Deep Reinforcement
Learning for Particle Accelerator Control Demonstrated on the FERMI FEL [0.0]
本稿では,加速物理問題における強化学習の運用レベルでの活用方法を示す。
FERMI FELシステムの強度最適化に適用されるモデルベースとモデルフリー強化学習を比較します。
モデルベースアプローチは、高い表現力とサンプル効率を示す一方、モデルフリーメソッドのパフォーマンスはわずかに優れています。
論文 参考訳(メタデータ) (2020-12-17T16:57:27Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。