論文の概要: Environment Design for Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.14972v1
- Date: Wed, 26 Oct 2022 18:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:00:16.746186
- Title: Environment Design for Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習のための環境設計
- Authors: Thomas Kleine Buening and Christos Dimitrakakis
- Abstract要約: 専門家によるデモンストレーションから報酬関数を学習するタスクは、与えられた環境でのデモンストレーションから何が学べるかに固有の制限だけでなく、高いサンプルの複雑さに悩まされる。
我々は,学習者と専門家が繰り返し対話する環境設計プロセスの枠組みを定式化し,その課題を実証するための環境を慎重にキュレートし,報酬に関する情報を積極的に求めるアルゴリズムを構築した。
- 参考スコア(独自算出の注目度): 3.373280468092944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of learning a reward function from expert demonstrations suffers
from high sample complexity as well as inherent limitations to what can be
learned from demonstrations in a given environment. As the samples used for
reward learning require human input, which is generally expensive, much effort
has been dedicated towards designing more sample-efficient algorithms.
Moreover, even with abundant data, current methods can still fail to learn
insightful reward functions that are robust to minor changes in the environment
dynamics. We approach these challenges differently than prior work by improving
the sample-efficiency as well as the robustness of learned rewards through
adaptively designing a sequence of demonstration environments for the expert to
act in. We formalise a framework for this environment design process in which
learner and expert repeatedly interact, and construct algorithms that actively
seek information about the rewards by carefully curating environments for the
human to demonstrate the task in.
- Abstract(参考訳): 専門家によるデモンストレーションから報酬関数を学習するタスクは、与えられた環境でのデモンストレーションから何が学べるかに固有の制限だけでなく、高いサンプルの複雑さに悩まされる。
報酬学習に使用されるサンプルは人間の入力を必要とするため、一般的にコストがかかるため、より効率的なアルゴリズムの設計に多くの努力が注がれている。
さらに、豊富なデータであっても、現在の手法は環境力学の微妙な変化に対して堅牢な洞察力のある報酬関数を学習できない。
我々は,これらの課題に対して,実演環境を適応的に設計することにより,実演効率の向上と学習報酬のロバスト性を向上させることで,先行研究と異なるアプローチを行う。
我々は,学習者と専門家が繰り返し対話する環境設計プロセスの枠組みを定式化し,その課題を実証するための環境を慎重にキュレートし,報酬に関する情報を積極的に求めるアルゴリズムを構築した。
関連論文リスト
- Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-22T11:47:35Z) - Unpacking Reward Shaping: Understanding the Benefits of Reward
Engineering on Sample Complexity [114.88145406445483]
強化学習は、ハイレベルな報酬仕様から行動を学ぶための自動化されたフレームワークを提供する。
実際には、良い結果を得るためには報酬関数の選択が不可欠である。
論文 参考訳(メタデータ) (2022-10-18T04:21:25Z) - Inferring Versatile Behavior from Demonstrations by Matching Geometric
Descriptors [72.62423312645953]
人間は直感的にタスクを多目的に解決し、軌道に基づく計画や個々のステップの行動を変化させる。
現在のImitation Learningアルゴリズムは、通常、単調な専門家によるデモンストレーションのみを考慮し、状態アクションベースの設定で行動する。
代わりに、移動プリミティブの混合と分布マッチングの目的を組み合わせることで、専門家の行動と汎用性にマッチする多目的行動を学ぶ。
論文 参考訳(メタデータ) (2022-10-17T16:42:59Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Variational Dynamic for Self-Supervised Exploration in Deep
Reinforcement Learning [64.87110914918101]
本研究では,条件付き変分推論に基づく変動力学モデルを提案し,多モード性および生成性をモデル化する。
環境遷移の負の対数類似度の上界を導出し、その上界を探査の本質的な報酬として利用する。
提案手法は,最先端の環境モデルに基づく探索手法よりも優れている。
論文 参考訳(メタデータ) (2020-10-17T09:54:51Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。