論文の概要: ProSpec RL: Plan Ahead, then Execute
- arxiv url: http://arxiv.org/abs/2407.21359v1
- Date: Wed, 31 Jul 2024 06:04:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-01 18:41:45.423488
- Title: ProSpec RL: Plan Ahead, then Execute
- Title(参考訳): ProSpec RL: 計画に先んじて実行
- Authors: Liangliang Liu, Yi Guan, BoRan Wang, Rujia Shen, Yi Lin, Chaoran Kong, Lian Yan, Jingchi Jiang,
- Abstract要約: 将来的なnストリーム軌道を想像して,高値,低リスクの最適決定を行うProspective (ProSpec) RL法を提案する。
ProSpecは、現在の状態と一連のサンプルアクションに基づいて将来の状態を予測するために、ダイナミックモデルを使用している。
提案手法の有効性をDMControlベンチマークで検証し,本手法による性能改善を実現した。
- 参考スコア(独自算出の注目度): 7.028937493640123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imagining potential outcomes of actions before execution helps agents make more informed decisions, a prospective thinking ability fundamental to human cognition. However, mainstream model-free Reinforcement Learning (RL) methods lack the ability to proactively envision future scenarios, plan, and guide strategies. These methods typically rely on trial and error to adjust policy functions, aiming to maximize cumulative rewards or long-term value, even if such high-reward decisions place the environment in extremely dangerous states. To address this, we propose the Prospective (ProSpec) RL method, which makes higher-value, lower-risk optimal decisions by imagining future n-stream trajectories. Specifically, ProSpec employs a dynamic model to predict future states (termed "imagined states") based on the current state and a series of sampled actions. Furthermore, we integrate the concept of Model Predictive Control and introduce a cycle consistency constraint that allows the agent to evaluate and select the optimal actions from these trajectories. Moreover, ProSpec employs cycle consistency to mitigate two fundamental issues in RL: augmenting state reversibility to avoid irreversible events (low risk) and augmenting actions to generate numerous virtual trajectories, thereby improving data efficiency. We validated the effectiveness of our method on the DMControl benchmarks, where our approach achieved significant performance improvements. Code will be open-sourced upon acceptance.
- Abstract(参考訳): 実行前の行動の潜在的な成果を想像することは、エージェントがより情報的な決定を下すのに役立つ。
しかし、主流のモデルフリー強化学習(RL)手法には、将来のシナリオ、計画、ガイド戦略を積極的に想定する能力がない。
これらの手法は、たとえ高水準の判断が環境を極めて危険な状態に配置しても、概算的な報酬や長期的価値を最大化することを目的として、政策機能を調整するために試行錯誤に依存するのが一般的である。
そこで本研究では,将来的なn-stream軌道を想像して,高値,低リスクの最適決定を行うProspective (ProSpec) RL法を提案する。
具体的には、ProSpecは動的モデルを使用して、現在の状態と一連のサンプルアクションに基づいて将来の状態(「想像された状態」と呼ばれる)を予測する。
さらに,モデル予測制御の概念とサイクル整合性制約を導入し,エージェントがこれらの軌道から最適な行動を評価し,選択できるようにする。
さらに、ProSpecはサイクル一貫性を使用して、RLの2つの基本的な問題を緩和する: 不可逆事象(リスクの低い)を避けるために状態の可逆性を向上し、多数の仮想軌道を生成するためにアクションを増強し、データ効率を向上させる。
提案手法の有効性をDMControlベンチマークで検証した。
コードは受理時にオープンソース化される。
関連論文リスト
- Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Generative Slate Recommendation with Reinforcement Learning [49.75985313698214]
強化学習アルゴリズムは、レコメンデータシステムのユーザエンゲージメントを最適化するために使用することができる。
しかし、RLアプローチはスレートレコメンデーションシナリオでは難解である。
この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。
本研究では,変分オートエンコーダによって学習された連続低次元ラテント空間におけるスレートの符号化を提案する。
我々は、(i)以前の作業で要求される仮定を緩和し、(ii)完全なスレートをモデル化することで、アクション選択の品質を向上させることができる。
論文 参考訳(メタデータ) (2023-01-20T15:28:09Z) - Knowing the Past to Predict the Future: Reinforcement Virtual Learning [29.47688292868217]
近年,強化学習(RL)に基づく制御システムが注目されている。
本稿では,RLモデルが仮想空間内で自分自身で進化できるような,コスト効率のよいフレームワークを提案する。
提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。
論文 参考訳(メタデータ) (2022-11-02T16:48:14Z) - Variational Inference for Model-Free and Model-Based Reinforcement
Learning [4.416484585765028]
変分推論 (VI) は、抽出可能な後方分布と抽出可能な後方分布を近似するベイズ近似の一種である。
一方、強化学習(Reinforcement Learning, RL)は、自律的なエージェントと、それらを最適な行動にする方法を扱う。
この写本は、VIとRLの明らかに異なる主題が2つの基本的な方法でどのようにリンクされているかを示している。
論文 参考訳(メタデータ) (2022-09-04T21:03:14Z) - TAE: A Semi-supervised Controllable Behavior-aware Trajectory Generator
and Predictor [3.6955256596550137]
軌道生成と予測は、知的車両のプランナー評価と意思決定において重要な役割を果たす。
本稿では,ドライバの動作を明示的にモデル化する行動認識型トラジェクトリ・オートエンコーダ(TAE)を提案する。
我々のモデルは、統一アーキテクチャにおける軌道生成と予測に対処し、両方のタスクに利益をもたらす。
論文 参考訳(メタデータ) (2022-03-02T17:37:44Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Acting upon Imagination: when to trust imagined trajectories in model based reinforcement learning [1.26990070983988]
モデルベース強化学習(MBRL)は、行動の結果を予測する環境力学のモデル(s)を学習することを目的としている。
仮想軌道のオンライン評価のための不確実性推定手法を提案する。
その結果,性能を犠牲にすることなく計算コストを大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-05-12T15:04:07Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。