論文の概要: Robust Decision-Focused Learning for Reward Transfer
- arxiv url: http://arxiv.org/abs/2304.03365v1
- Date: Thu, 6 Apr 2023 20:47:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-10 13:48:30.987062
- Title: Robust Decision-Focused Learning for Reward Transfer
- Title(参考訳): 逆移動のためのロバスト決定型学習
- Authors: Abhishek Sharma, Sonali Parbhoo, Omer Gottesman, Finale Doshi-Velez
- Abstract要約: 本研究では,報酬関数の変化に頑健なモデルを同時に学習しながら,期待したリターンを最大化するモデルを学習する,堅牢な決定中心(RDF)アルゴリズムを開発する。
本研究では, RDF による報酬関数の変化に対する DF の頑健性は, エージェントが得られる全体的なリターンを低下させることなく著しく向上する, 様々な玩具の例と医療シミュレータについて示す。
- 参考スコア(独自算出の注目度): 34.26337766842316
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decision-focused (DF) model-based reinforcement learning has recently been
introduced as a powerful algorithm which can focus on learning the MDP dynamics
which are most relevant for obtaining high rewards. While this approach
increases the performance of agents by focusing the learning towards optimizing
for the reward directly, it does so by learning less accurate dynamics (from a
MLE standpoint), and may thus be brittle to changes in the reward function. In
this work, we develop the robust decision-focused (RDF) algorithm which
leverages the non-identifiability of DF solutions to learn models which
maximize expected returns while simultaneously learning models which are robust
to changes in the reward function. We demonstrate on a variety of toy example
and healthcare simulators that RDF significantly increases the robustness of DF
to changes in the reward function, without decreasing the overall return the
agent obtains.
- Abstract(参考訳): 意思決定型モデルに基づく強化学習(DF)は近年,高い報酬を得る上で最も有効なMDPダイナミクスの学習に集中できる強力なアルゴリズムとして導入されている。
このアプローチは報酬の最適化に学習を集中させることでエージェントのパフォーマンスを高めるが、(mleの観点から)より正確なダイナミクスを学習することで、報酬関数の変化に対して脆弱になる可能性がある。
本研究では,dfソリューションの非識別性を活用したロバスト決定焦点(rdf)アルゴリズムを開発し,報奨関数の変化にロバストなモデルを同時に学習しながら,期待帰納を最大化するモデルを学習する。
本研究では, RDF による報酬関数の変化に対する DF の頑健性は, エージェントが得られる全体的なリターンを低下させることなく著しく向上する, 様々な玩具の例と医療シミュレータについて示す。
関連論文リスト
- Learning Low-Dimensional Strain Models of Soft Robots by Looking at the Evolution of Their Shape with Application to Model-Based Control [2.058941610795796]
本稿では,低次元物理モデル学習のための合理化手法を提案する。
各種平面ソフトマニピュレータを用いたシミュレーションにより,本手法の有効性を検証した。
物理的に互換性のあるモデルを生成する方法のおかげで、学習したモデルはモデルベースの制御ポリシーと簡単に組み合わせることができる。
論文 参考訳(メタデータ) (2024-10-31T18:37:22Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Evaluating model-based planning and planner amortization for continuous
control [79.49319308600228]
我々は、モデル予測制御(MPC)と学習モデルとモデルフリーポリシー学習を組み合わせたハイブリッドアプローチを採っている。
モデルフリーエージェントは高いDoF制御問題においても強いベースラインであることがわかった。
モデルに基づくプランナを,パフォーマンスを損なうことなく,計画が損なわれるようなポリシーに置き換えることが可能であることを示す。
論文 参考訳(メタデータ) (2021-10-07T12:00:40Z) - Learning to Reweight Imaginary Transitions for Model-Based Reinforcement
Learning [58.66067369294337]
モデルが不正確または偏りがある場合、虚構軌跡はアクション値とポリシー関数を訓練するために欠落する可能性がある。
虚構遷移を適応的に再重み付けし, 未生成軌跡の負の効果を低減させる。
提案手法は,複数のタスクにおいて,最先端のモデルベースおよびモデルフリーなRLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2021-04-09T03:13:35Z) - Model-based Meta Reinforcement Learning using Graph Structured Surrogate
Models [40.08137765886609]
グラフ構造化サーロゲートモデル (GSSM) と呼ばれるモデルが, 環境ダイナミクス予測における最先端の手法を上回っていることを示した。
当社のアプローチでは,テスト時間ポリシの勾配最適化を回避して,デプロイメント中の高速実行を実現しつつ,高いリターンを得ることができる。
論文 参考訳(メタデータ) (2021-02-16T17:21:55Z) - Variational Model-based Policy Optimization [34.80171122943031]
モデルベース強化学習(RL)アルゴリズムにより、実システムとの相互作用から得られたデータとモデル生成データを組み合わせ、RLにおけるデータ効率問題を緩和する。
本稿では,ログライクリフのログライクリフの変動的下界としての目的関数を提案し,モデルとポリシーを共同で学習し,改善する。
多くの連続制御タスクに関する実験により、モデルベース(Eステップ)アルゴリズムはより複雑であるにもかかわらず、浮動小数点数モデルベースポリシー最適化(VMBPO)と呼ばれるアルゴリズムの方がよりサンプリング効率が高いことが示された。
論文 参考訳(メタデータ) (2020-06-09T18:30:15Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z) - Information Theoretic Model Predictive Q-Learning [64.74041985237105]
本稿では,情報理論的MPCとエントロピー正規化RLとの新たな理論的関連性を示す。
バイアスモデルを利用したQ-ラーニングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2019-12-31T00:29:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。