論文の概要: Reward function shape exploration in adversarial imitation learning: an
empirical study
- arxiv url: http://arxiv.org/abs/2104.06687v1
- Date: Wed, 14 Apr 2021 08:21:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 13:33:24.770338
- Title: Reward function shape exploration in adversarial imitation learning: an
empirical study
- Title(参考訳): 敵対的模倣学習における報酬関数形状探索--経験的研究
- Authors: Yawei Wang and Xiu Li
- Abstract要約: 敵対的模倣学習アルゴリズム(ails)では、戦略を学ぶための環境から真の報酬は得られない。
代表的な報酬関数の形状を設計し,その性能を大規模実験により比較する。
- 参考スコア(独自算出の注目度): 9.817069267241575
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For adversarial imitation learning algorithms (AILs), no true rewards are
obtained from the environment for learning the strategy. However, the pseudo
rewards based on the output of the discriminator are still required. Given the
implicit reward bias problem in AILs, we design several representative reward
function shapes and compare their performances by large-scale experiments. To
ensure our results' reliability, we conduct the experiments on a series of
Mujoco and Box2D continuous control tasks based on four different AILs.
Besides, we also compare the performance of various reward function shapes
using varying numbers of expert trajectories. The empirical results reveal that
the positive logarithmic reward function works well in typical continuous
control tasks. In contrast, the so-called unbiased reward function is limited
to specific kinds of tasks. Furthermore, several designed reward functions
perform excellently in these environments as well.
- Abstract(参考訳): 敵対的模倣学習アルゴリズム(AIL)では、戦略を学ぶための環境から真の報酬が得られない。
しかし、判別器の出力に基づく疑似報酬は依然として必要である。
AILの暗黙的な報酬バイアス問題を考えると、いくつかの代表報酬関数形状を設計し、それらの性能を大規模実験で比較する。
結果の信頼性を確保するため、4つの異なるAILに基づく一連のMujocoおよびBox2D連続制御タスクについて実験を行った。
また,様々な特徴量を用いて様々な報酬関数形状の性能を比較する。
実験の結果、正対数報酬関数は典型的な連続制御タスクでうまく機能することが明らかとなった。
対照的に、いわゆるunbiased reward関数は、特定の種類のタスクに制限される。
さらに、これらの環境においても、いくつかのデザインされた報酬関数が優れた性能を発揮する。
関連論文リスト
- DreamSmooth: Improving Model-based Reinforcement Learning via Reward
Smoothing [60.21269454707625]
DreamSmoothは、与えられたタイミングでの正確な報酬ではなく、時間的に滑らかな報酬を予測することを学ぶ。
本研究では,DreamSmoothが長時間のスパース・リワードタスクにおいて最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-11-02T17:57:38Z) - Can Differentiable Decision Trees Enable Interpretable Reward Learning from Human Feedback? [10.968490626773564]
微分決定木(DDT)を用いた嗜好から表現的・解釈可能な報酬関数を学習するための新しいアプローチを提案し,評価する。
CartPole、Visual Gridworld環境、Atariゲームなど、いくつかの領域にわたる実験により、学習した報酬関数のツリー構造が人間の嗜好に合致する範囲を決定するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-06-22T16:04:16Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Identifiability and generalizability from multiple experts in Inverse
Reinforcement Learning [39.632717308147825]
強化学習(Reinforcement Learning, RL)は、ある環境における報酬関数からエージェントを訓練することを目的としている。
逆強化学習(IRL)は、専門家の行動を観察して報酬関数を回復させようとする。
論文 参考訳(メタデータ) (2022-09-22T12:50:00Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Invariance in Policy Optimisation and Partial Identifiability in Reward
Learning [67.4640841144101]
一般の報奨学習データソースに与えられる報酬関数の部分的識別性を特徴付ける。
また、政策最適化など、下流業務におけるこの部分的識別可能性の影響も分析する。
論文 参考訳(メタデータ) (2022-03-14T20:19:15Z) - Dynamics-Aware Comparison of Learned Reward Functions [21.159457412742356]
報酬関数を学習する能力は、現実世界にインテリジェントエージェントを配置する上で重要な役割を果たす。
リワード関数は通常、最適化されたポリシーの振舞いを考慮することで比較されるが、このアプローチは報酬関数の欠陥を最適化に使用するポリシー探索アルゴリズムのそれと混同する。
そこで我々はDARD(Dynamics-Aware Reward Distance)を提案する。
論文 参考訳(メタデータ) (2022-01-25T03:48:00Z) - Replacing Rewards with Examples: Example-Based Policy Search via
Recursive Classification [133.20816939521941]
標準的なマルコフ決定プロセス形式では、ユーザーは報酬関数を書き留めてタスクを指定する。
多くのシナリオでは、ユーザーはタスクを単語や数字で記述できないが、タスクが解決された場合の世界がどのように見えるかを簡単に示すことができる。
この観察に動機づけられた制御アルゴリズムは、成功した結果状態の例だけを考慮すれば、成功する結果につながる確率の高い状態を訪問することを目的としている。
論文 参考訳(メタデータ) (2021-03-23T16:19:55Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Addressing reward bias in Adversarial Imitation Learning with neutral
reward functions [1.7188280334580197]
模倣学習は、アルゴリズムで使用される報酬関数の選択から生じる報酬バイアスの根本的な問題に悩まされる。
複数の端末状態を持つタスクベース環境において、既存の報酬関数が模倣学習シナリオで失敗する理由に関する理論的スケッチを提供する。
本稿では,タスクベース環境において,GAILの既存手法を単一端末状態と複数端末状態で上回り,GAILに対する新たな報酬関数を提案する。
論文 参考訳(メタデータ) (2020-09-20T16:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。