論文の概要: Environment Design for Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.14972v1
- Date: Wed, 26 Oct 2022 18:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 13:00:16.746186
- Title: Environment Design for Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習のための環境設計
- Authors: Thomas Kleine Buening and Christos Dimitrakakis
- Abstract要約: 専門家によるデモンストレーションから報酬関数を学習するタスクは、与えられた環境でのデモンストレーションから何が学べるかに固有の制限だけでなく、高いサンプルの複雑さに悩まされる。
我々は,学習者と専門家が繰り返し対話する環境設計プロセスの枠組みを定式化し,その課題を実証するための環境を慎重にキュレートし,報酬に関する情報を積極的に求めるアルゴリズムを構築した。
- 参考スコア(独自算出の注目度): 3.373280468092944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of learning a reward function from expert demonstrations suffers
from high sample complexity as well as inherent limitations to what can be
learned from demonstrations in a given environment. As the samples used for
reward learning require human input, which is generally expensive, much effort
has been dedicated towards designing more sample-efficient algorithms.
Moreover, even with abundant data, current methods can still fail to learn
insightful reward functions that are robust to minor changes in the environment
dynamics. We approach these challenges differently than prior work by improving
the sample-efficiency as well as the robustness of learned rewards through
adaptively designing a sequence of demonstration environments for the expert to
act in. We formalise a framework for this environment design process in which
learner and expert repeatedly interact, and construct algorithms that actively
seek information about the rewards by carefully curating environments for the
human to demonstrate the task in.
- Abstract(参考訳): 専門家によるデモンストレーションから報酬関数を学習するタスクは、与えられた環境でのデモンストレーションから何が学べるかに固有の制限だけでなく、高いサンプルの複雑さに悩まされる。
報酬学習に使用されるサンプルは人間の入力を必要とするため、一般的にコストがかかるため、より効率的なアルゴリズムの設計に多くの努力が注がれている。
さらに、豊富なデータであっても、現在の手法は環境力学の微妙な変化に対して堅牢な洞察力のある報酬関数を学習できない。
我々は,これらの課題に対して,実演環境を適応的に設計することにより,実演効率の向上と学習報酬のロバスト性を向上させることで,先行研究と異なるアプローチを行う。
我々は,学習者と専門家が繰り返し対話する環境設計プロセスの枠組みを定式化し,その課題を実証するための環境を慎重にキュレートし,報酬に関する情報を積極的に求めるアルゴリズムを構築した。
関連論文リスト
- Efficient Diversity-based Experience Replay for Deep Reinforcement Learning [14.96744975805832]
本稿では, 状態実現における多種多様なサンプルの優先順位付けに決定論的点プロセスを活用する, 多様性に基づく経験リプレイ(DBER)を提案する。
我々は,MuJoCo,Atariゲーム,ハビタットのリアルな室内環境におけるロボットマニピュレーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:51:27Z) - Robust Visual Imitation Learning with Inverse Dynamics Representations [32.806294517277976]
我々は,専門家環境と学習環境を整合させるために,逆ダイナミクス状態表現学習目標を開発する。
抽象状態表現を用いて、行動データと専門家データとの類似性を徹底的に測定する効果的な報酬関数を設計する。
提案手法は,ほとんどの環境においてほぼ熟練した性能を実現し,最先端のビジュアルIL法やロバストIL法を著しく上回っている。
論文 参考訳(メタデータ) (2023-10-22T11:47:35Z) - Diversity Induced Environment Design via Self-Play [9.172096093540357]
本研究では,与えられたレベルを表す観測・隠蔽状態を特定するタスク非依存の手法を提案する。
この手法の結果は, 2つのレベル間の多様性を特徴付けるために利用され, 有効性能に欠かせないことが示されている。
さらに, サンプリング効率を向上させるために, 環境生成装置がトレーニングエージェントに有利な環境を自動的に生成する自己再生技術を導入する。
論文 参考訳(メタデータ) (2023-02-04T07:31:36Z) - Continual Predictive Learning from Videos [100.27176974654559]
本稿では,ビデオ予測の文脈において,新たな連続学習問題について検討する。
本稿では,連続予測学習(Continuousal predictive Learning, CPL)アプローチを提案する。
我々はRoboNetとKTHに基づく2つの新しいベンチマークを構築し、異なるタスクが異なる物理ロボット環境や人間の行動に対応するようにした。
論文 参考訳(メタデータ) (2022-04-12T08:32:26Z) - Perceiving the World: Question-guided Reinforcement Learning for
Text-based Games [64.11746320061965]
本稿では,環境に関する質問に答えることで,タスクやプーンアクションを自動的に分解する世界認識モジュールを提案する。
次に、強化学習から言語学習を分離する2段階学習フレームワークを提案し、サンプル効率をさらに向上させる。
論文 参考訳(メタデータ) (2022-03-20T04:23:57Z) - Attention Option-Critic [56.50123642237106]
本稿では,オプション批判フレームワークへの注意に基づく拡張を提案する。
これは、状態抽象化も可能な振る舞いに多様な選択肢をもたらすことを示す。
また、学習した選択肢のより効率的で、解釈可能で、再利用可能な性質を、オプション批判と比較して示す。
論文 参考訳(メタデータ) (2022-01-07T18:44:28Z) - Sample Efficient Imitation Learning via Reward Function Trained in
Advance [2.66512000865131]
イミテーションラーニング(IL)は、実証から専門家の行動を模倣することを学ぶフレームワークである。
本稿では,逆強化学習の新たな手法を導入することで,サンプル効率の向上に尽力する。
論文 参考訳(メタデータ) (2021-11-23T08:06:09Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z) - Demonstration-efficient Inverse Reinforcement Learning in Procedurally
Generated Environments [137.86426963572214]
逆強化学習(Inverse Reinforcement Learning)は、専門家によるデモンストレーションから報酬関数を外挿する。
提案手法であるDE-AIRLは、実演効率が高く、完全手続き領域に一般化する報酬関数を外挿できることを示す。
論文 参考訳(メタデータ) (2020-12-04T11:18:02Z) - Ecological Reinforcement Learning [76.9893572776141]
このような条件下での学習を容易にする環境特性について検討する。
環境の特性が強化学習エージェントのパフォーマンスにどのように影響するかを理解することは、学習を魅力的にする方法でタスクを構造化するのに役立ちます。
論文 参考訳(メタデータ) (2020-06-22T17:55:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。