論文の概要: DIP-RL: Demonstration-Inferred Preference Learning in Minecraft
- arxiv url: http://arxiv.org/abs/2307.12158v1
- Date: Sat, 22 Jul 2023 20:05:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 17:39:33.413407
- Title: DIP-RL: Demonstration-Inferred Preference Learning in Minecraft
- Title(参考訳): DIP-RL:Minecraftにおける実証推論学習
- Authors: Ellen Novoseller, Vinicius G. Goecks, David Watkins, Josh Miller,
Nicholas Waytowich
- Abstract要約: 機械学習では、アルゴリズムエージェントが報酬信号の形式でフィードバックを受けながら環境と対話することを学ぶ。
本稿では,人間の実演を3つの異なる方法で活用するアルゴリズムであるDIP-RLを提案する。
Minecraftにおける木切り作業におけるDIP-RLの評価を行った。
- 参考スコア(独自算出の注目度): 0.5669790037378094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In machine learning for sequential decision-making, an algorithmic agent
learns to interact with an environment while receiving feedback in the form of
a reward signal. However, in many unstructured real-world settings, such a
reward signal is unknown and humans cannot reliably craft a reward signal that
correctly captures desired behavior. To solve tasks in such unstructured and
open-ended environments, we present Demonstration-Inferred Preference
Reinforcement Learning (DIP-RL), an algorithm that leverages human
demonstrations in three distinct ways, including training an autoencoder,
seeding reinforcement learning (RL) training batches with demonstration data,
and inferring preferences over behaviors to learn a reward function to guide
RL. We evaluate DIP-RL in a tree-chopping task in Minecraft. Results suggest
that the method can guide an RL agent to learn a reward function that reflects
human preferences and that DIP-RL performs competitively relative to baselines.
DIP-RL is inspired by our previous work on combining demonstrations and
pairwise preferences in Minecraft, which was awarded a research prize at the
2022 NeurIPS MineRL BASALT competition, Learning from Human Feedback in
Minecraft. Example trajectory rollouts of DIP-RL and baselines are located at
https://sites.google.com/view/dip-rl.
- Abstract(参考訳): 逐次決定のための機械学習において、アルゴリズムエージェントは、報酬信号の形式でフィードバックを受けながら環境と対話することを学ぶ。
しかし、多くの非構造化現実環境において、そのような報酬信号は未知であり、人間が望ましい振る舞いを正しく捉えた報酬信号を確実に作成することはできない。
このような非構造的でオープンな環境での課題を解決するために、自動エンコーダの訓練、RLの訓練バッチのシード化、RLの誘導のための報酬関数の学習のための行動よりも好みの推論など、3つの異なる方法で人間のデモンストレーションを利用するアルゴリズムであるDemonstration-Inferred Preference Reinforcement Learning (DIP-RL)を提案する。
Minecraftにおける木切り作業におけるDIP-RLの評価を行った。
提案手法は,ヒトの嗜好を反映した報酬関数を学習するためにRLエージェントを誘導し,DIP-RLがベースラインに対して競合的に作用することが示唆された。
DIP-RLは、マインクラフトにおける実証とペアの選好の組み合わせに関するこれまでの研究に触発され、2022年のNeurIPS MineRL BASALTコンペティションで研究賞を受賞した。
DIP-RLとベースラインの例はhttps://sites.google.com/view/dip-rlにある。
関連論文リスト
- Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences [23.414135977983953]
嗜好に基づく強化学習(PbRL)は、報酬信号として人間の嗜好を活用することにより、報酬工学の必要性を回避する。
雑音の選好から効果的な報酬学習のための頑健なPbRLアルゴリズムであるRIMEを提案する。
論文 参考訳(メタデータ) (2024-02-27T07:03:25Z) - Leveraging Reward Consistency for Interpretable Feature Discovery in
Reinforcement Learning [69.19840497497503]
一般的に使われているアクションマッチングの原理は、RLエージェントの解釈よりもディープニューラルネットワーク(DNN)の説明に近いと論じられている。
本稿では,RLエージェントの主目的である報酬を,RLエージェントを解釈する本質的な目的として考察する。
我々は,Atari 2600 ゲームと,挑戦的な自動運転車シミュレータ環境である Duckietown の検証と評価を行った。
論文 参考訳(メタデータ) (2023-09-04T09:09:54Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Contrastive Learning as Goal-Conditioned Reinforcement Learning [147.28638631734486]
強化学習(RL)では,優れた表現が与えられると,課題の解決が容易になる。
ディープRLはこのような優れた表現を自動的に取得する必要があるが、事前の作業では、エンドツーエンドの方法での学習表現が不安定であることが多い。
比較的)表現学習法は,RLアルゴリズムとして自己にキャスト可能であることを示す。
論文 参考訳(メタデータ) (2022-06-15T14:34:15Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。