論文の概要: Entropy-regularized Point-based Value Iteration
- arxiv url: http://arxiv.org/abs/2402.09388v1
- Date: Wed, 14 Feb 2024 18:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 13:55:19.459136
- Title: Entropy-regularized Point-based Value Iteration
- Title(参考訳): エントロピー正規化点値反復法
- Authors: Harrison Delecki, Marcell Vazquez-Chanlatte, Esen Yel, Kyle Wray,
Tomer Arnon, Stefan Witwicki, Mykel J. Kochenderfer
- Abstract要約: 本稿では,部分的に観測可能な問題に対するエントロピー規則化モデルベースプランナを提案する。
3つの問題領域におけるエントロピー規則化ポリシーの頑健性と客観的推論性能を評価する。
- 参考スコア(独自算出の注目度): 30.04027907700095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model-based planners for partially observable problems must accommodate both
model uncertainty during planning and goal uncertainty during objective
inference. However, model-based planners may be brittle under these types of
uncertainty because they rely on an exact model and tend to commit to a single
optimal behavior. Inspired by results in the model-free setting, we propose an
entropy-regularized model-based planner for partially observable problems.
Entropy regularization promotes policy robustness for planning and objective
inference by encouraging policies to be no more committed to a single action
than necessary. We evaluate the robustness and objective inference performance
of entropy-regularized policies in three problem domains. Our results show that
entropy-regularized policies outperform non-entropy-regularized baselines in
terms of higher expected returns under modeling errors and higher accuracy
during objective inference.
- Abstract(参考訳): 部分的に観測可能な問題に対するモデルベースプランナーは、計画中のモデル不確実性と客観的推論時の目標不確実性の両方に対応しなければならない。
しかしながら、モデルベースのプランナーは、厳密なモデルに依存し、単一の最適な行動にコミットする傾向があるため、このような不確実性の下では不安定である可能性がある。
モデルフリー設定の結果に着想を得て,部分可観測問題に対するエントロピー正規化モデルに基づくプランナーを提案する。
エントロピー正規化(entropy regularization)は、政策が必要以上に単一の行動にコミットしないことを奨励することで、計画と客観的な推論のポリシーロバスト性を促進する。
3つの問題領域におけるエントロピー規則化ポリシーの頑健性と客観的推論性能を評価する。
実験結果から,非エントロピー規則化ポリシーは,モデル誤差下での期待値の上昇,目標推定時の精度の向上などにより,非エントロピー規則化基準線よりも優れていることがわかった。
関連論文リスト
- CAR-DESPOT: Causally-Informed Online POMDP Planning for Robots in
Confounded Environments [5.979296454783688]
正確で堅牢な行動予測を行う上での大きな課題は、コンファウンディングの問題である。
部分的に観測可能なマルコフ決定プロセス(POMDP)は、これらと部分的に観測可能な意思決定問題をモデル化するための広く使われているフレームワークである。
本稿では,不測な共同設立変数による誤りを解消するために,「常時正規化決定された部分観測木」(AR-DESPOT)の因果的インフォームド拡張を提案する。
論文 参考訳(メタデータ) (2023-04-13T22:32:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Plan To Predict: Learning an Uncertainty-Foreseeing Model for
Model-Based Reinforcement Learning [32.24146877835396]
本稿では,モデルロールアウト処理を逐次決定問題として扱うフレームワークであるemphPlan To Predict (P2P)を提案する。
P2Pは、いくつかの課題のあるベンチマークタスクにおいて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-01-20T10:17:22Z) - DROMO: Distributionally Robust Offline Model-based Policy Optimization [0.0]
モデルベース制御によるオフライン強化学習の問題点を考察する。
分散ロバストなオフラインモデルベースポリシー最適化(DROMO)を提案する。
論文 参考訳(メタデータ) (2021-09-15T13:25:14Z) - An Offline Risk-aware Policy Selection Method for Bayesian Markov
Decision Processes [0.0]
Exploitation vs. Caution (EvC) はベイズ形式主義のモデル不確実性をエレガントに取り入れたパラダイムである。
我々は,多種多様なMDPクラスを提供する異なる離散的かつシンプルな環境において,最先端のアプローチでEvCを検証する。
テストシナリオでは、EvCは堅牢なポリシーを選択することができ、実践者にとって有用なツールとして際立っている。
論文 参考訳(メタデータ) (2021-05-27T20:12:20Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z) - Forethought and Hindsight in Credit Assignment [62.05690959741223]
我々は、前向きモデルや後向きモデルによる後向き操作による予測として使われる計画の利益と特異性を理解するために活動する。
本稿では,予測を(再)評価すべき状態の選択に主眼を置いて,計画におけるモデルの利用について検討する。
論文 参考訳(メタデータ) (2020-10-26T16:00:47Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z) - Selective Dyna-style Planning Under Limited Model Capacity [26.63876180969654]
モデルに基づく強化学習では、環境の不完全なモデルによる計画は、学習の進行に害を与える可能性がある。
本稿では,不完全モデルの使用を選択的に検討する。
エージェントは、モデルが有用な状態空間の一部を計画するが、有害なモデルの使用を控える必要がある。
論文 参考訳(メタデータ) (2020-07-05T18:51:50Z) - Offline Contextual Bandits with Overparameterized Models [52.788628474552276]
オフラインの文脈的盗賊にも同じ現象が起こるかどうかを問う。
この相違は, 目的の強調安定性によるものであることを示す。
大規模なニューラルネットワークを用いた実験では、アクション安定な値ベース目標と不安定なポリシベース目標とのギャップは、大きなパフォーマンス差をもたらす。
論文 参考訳(メタデータ) (2020-06-27T13:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。