論文の概要: Model-Based Reward Shaping for Adversarial Inverse Reinforcement Learning in Stochastic Environments
- arxiv url: http://arxiv.org/abs/2410.03847v1
- Date: Fri, 4 Oct 2024 18:27:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 15:50:43.538079
- Title: Model-Based Reward Shaping for Adversarial Inverse Reinforcement Learning in Stochastic Environments
- Title(参考訳): 確率環境における逆逆強化学習のためのモデルベース逆整形
- Authors: Simon Sinong Zhan, Qingyuan Wu, Philip Wang, Yixuan Wang, Ruochen Jiao, Chao Huang, Qi Zhu,
- Abstract要約: 理論的結果が得られず,性能が劣化した環境下でのAIRL(Adrial Inverse Reinforcement Learning)手法の限界に対処する。
そこで本研究では,環境における最適政策の理論的保証とともに,力学情報を報酬形成に注入する手法を提案する。
本稿では,モデル拡張型AIRLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 11.088387316161064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to tackle the limitation of the Adversarial Inverse Reinforcement Learning (AIRL) method in stochastic environments where theoretical results cannot hold and performance is degraded. To address this issue, we propose a novel method which infuses the dynamics information into the reward shaping with the theoretical guarantee for the induced optimal policy in the stochastic environments. Incorporating our novel model-enhanced rewards, we present a novel Model-Enhanced AIRL framework, which integrates transition model estimation directly into reward shaping. Furthermore, we provide a comprehensive theoretical analysis of the reward error bound and performance difference bound for our method. The experimental results in MuJoCo benchmarks show that our method can achieve superior performance in stochastic environments and competitive performance in deterministic environments, with significant improvement in sample efficiency, compared to existing baselines.
- Abstract(参考訳): 本稿では,理論的結果が得られず,性能が劣化する確率環境下でのAIRL(Adversarial Inverse Reinforcement Learning)手法の限界に対処することを目的とする。
この問題に対処するため,確率的環境における最適政策の理論的保証とともに,力学情報を報酬形成に注入する手法を提案する。
本稿では,モデル強化型AIRLフレームワークについて,モデル拡張型AIRLフレームワークを提案する。
さらに,提案手法における報酬誤差境界と性能差の包括的理論的解析を行った。
MuJoCoベンチマークによる実験結果から,本手法は確率的環境における優れた性能と決定論的環境における競合性能を達成でき,既存のベースラインと比較して試料効率が大幅に向上することが示された。
関連論文リスト
- Enhancing Fairness through Reweighting: A Path to Attain the Sufficiency Rule [23.335423207588466]
モデルトレーニングにおける経験的リスク最小化プロセスを強化するための革新的なアプローチを導入する。
このスキームは、最適予測器が多様なサブグループ間で整合性を維持することを保証することによって、公正性における十分性規則を維持することを目的としている。
論文 参考訳(メタデータ) (2024-08-26T09:19:58Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - A Bayesian Approach to Robust Inverse Reinforcement Learning [54.24816623644148]
我々は、オフラインモデルに基づく逆強化学習(IRL)に対するベイズ的アプローチを考える。
提案フレームワークは,専門家の報酬関数と環境力学の主観的モデルとを同時推定することにより,既存のオフラインモデルベースIRLアプローチとは異なる。
本分析は, 専門家が環境の高精度なモデルを持つと考えられる場合, 評価政策が堅牢な性能を示すという新たな知見を提示する。
論文 参考訳(メタデータ) (2023-09-15T17:37:09Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Discriminator Augmented Model-Based Reinforcement Learning [47.094522301093775]
学習したモデルが不正確であり、計画が損なわれ、パフォーマンスが悪くなるのは実際には一般的です。
本稿では,真の力学と学習力学の相違を考慮に入れた重要サンプリングフレームワークによる計画の改善を目的とする。
論文 参考訳(メタデータ) (2021-03-24T06:01:55Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。