論文の概要: RAPTOR: End-to-end Risk-Aware MDP Planning and Policy Learning by
Backpropagation
- arxiv url: http://arxiv.org/abs/2106.07260v1
- Date: Mon, 14 Jun 2021 09:27:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 15:45:19.911577
- Title: RAPTOR: End-to-end Risk-Aware MDP Planning and Policy Learning by
Backpropagation
- Title(参考訳): RAPTOR: エンドツーエンドのリスク対応型MDP計画とバックプロパゲーションによる政策学習
- Authors: Noah Patton, Jihwan Jeong, Michael Gimelfarb, Scott Sanner
- Abstract要約: PyTorch (RAP) を用いたリスクアウェアプランニング(リスクアウェアプランニング)を導入する。
本研究では, 非線形ナビゲーション, HVAC制御, 線形貯水池制御を含む3つの高次要素について, これら2種類のRAPTORを評価し, 比較した。
- 参考スコア(独自算出の注目度): 12.600828753197204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Planning provides a framework for optimizing sequential decisions in complex
environments. Recent advances in efficient planning in deterministic or
stochastic high-dimensional domains with continuous action spaces leverage
backpropagation through a model of the environment to directly optimize
actions. However, existing methods typically not take risk into account when
optimizing in stochastic domains, which can be incorporated efficiently in MDPs
by optimizing the entropic utility of returns. We bridge this gap by
introducing Risk-Aware Planning using PyTorch (RAPTOR), a novel framework for
risk-sensitive planning through end-to-end optimization of the entropic utility
objective. A key technical difficulty of our approach lies in that direct
optimization of the entropic utility by backpropagation is impossible due to
the presence of environment stochasticity. The novelty of RAPTOR lies in the
reparameterization of the state distribution, which makes it possible to apply
stochastic backpropagatation through sufficient statistics of the entropic
utility computed from forward-sampled trajectories. The direct optimization of
this empirical objective in an end-to-end manner is called the risk-averse
straight-line plan, which commits to a sequence of actions in advance and can
be sub-optimal in highly stochastic domains. We address this shortcoming by
optimizing for risk-aware Deep Reactive Policies (RaDRP) in our framework. We
evaluate and compare these two forms of RAPTOR on three highly stochastic
do-mains, including nonlinear navigation, HVAC control, and linear reservoir
control, demonstrating the ability to manage risk in complex MDPs.
- Abstract(参考訳): 計画は複雑な環境でシーケンシャルな決定を最適化するためのフレームワークを提供する。
連続的な作用空間を持つ決定的あるいは確率的高次元領域における効率的な計画の最近の進歩は、行動を直接最適化するために環境のモデルを通してバックプロパゲーションを活用する。
しかし、既存の手法は確率的領域を最適化する際にリスクを考慮せず、リターンのエントロピー的ユーティリティを最適化することでMDPに効率的に組み込むことができる。
我々は,エントロピー目的のエンドツーエンド最適化によるリスクセンシティブ計画のための新しいフレームワークであるpytorch(raptor)を用いて,リスク対応計画を導入することで,このギャップを埋める。
本手法の重要な技術的困難は,環境確率性が存在するため,バックプロパゲーションによるエントロピーユーティリティの直接的最適化は不可能である。
RAPTORの新規性は状態分布の再パラメータ化にあり、前方サンプリング軌道から計算されたエントロピーユーティリティの十分な統計により確率的バックプロパゲーションを適用することができる。
この経験的目的をエンドツーエンドに直接最適化することはリスク逆直線計画と呼ばれ、これは前もって一連の行動にコミットし、高度確率領域では準最適である。
当社のフレームワークでは,リスク対応のDeep Reactive Policies(RaDRP)を最適化することで,この問題に対処しています。
非線形ナビゲーション, HVAC 制御, 線形貯水池制御を含む3つの高度確率的ドメインに対して, これらの2種類のRAPTORを評価し比較し, 複雑なMDPのリスク管理能力を示す。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Risk-sensitive Markov Decision Process and Learning under General
Utility Functions [3.6260136172126667]
強化学習(Reinforcement Learning, RL)は、様々な応用分野や理論的研究において大きな注目を集めている。
累積報酬の空間上でのエプシロン被覆を用いた修正値アルゴリズムを提案する。
シミュレータが存在しない場合,提案アルゴリズムは高信頼度探索法を用いて設計され,ほぼ最適ポリシーを同定する。
論文 参考訳(メタデータ) (2023-11-22T18:50:06Z) - Learning Regions of Interest for Bayesian Optimization with Adaptive
Level-Set Estimation [84.0621253654014]
本稿では,高信頼領域を適応的にフィルタするBALLETというフレームワークを提案する。
理論的には、BALLETは探索空間を効率的に縮小することができ、標準BOよりも厳密な後悔を示すことができる。
論文 参考訳(メタデータ) (2023-07-25T09:45:47Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Hierarchical Policy Blending as Inference for Reactive Robot Control [21.058662668187875]
ぼんやりした、密集した、ダイナミックな環境における運動生成は、ロボット工学における中心的なトピックである。
反応ポリシーと計画の利点を組み合わせた階層的な動き生成手法を提案する。
平面ナビゲーションと6DoF操作の実験的研究により,提案手法は筋活動制御とオンライン再計画の両方に優れることが示された。
論文 参考訳(メタデータ) (2022-10-14T15:16:54Z) - Risk-Averse Decision Making Under Uncertainty [18.467950783426947]
不確実性条件下での意思決定は、マルコフ決定プロセス(MDP)または部分的に観測可能なMDP(POMDP)を介して記述することができる。
本稿では、動的コヒーレントリスク対策の観点から、MDPとPMDPのポリシーを目的と制約で設計する問題について考察する。
論文 参考訳(メタデータ) (2021-09-09T07:52:35Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - Improving Offline Contextual Bandits with Distributional Robustness [10.310819665706294]
我々は, 対人的リスク最小化原則の凸修正を導入する。
我々のアプローチは凸プログラムと互換性があり、従って大規模なデータ構造に容易に適応できる。
提案手法の有効性を裏付ける予備実験結果を示す。
論文 参考訳(メタデータ) (2020-11-13T09:52:16Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。