論文の概要: Reward Shaping for Human Learning via Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2002.10904v3
- Date: Thu, 15 Dec 2022 16:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 20:53:01.259108
- Title: Reward Shaping for Human Learning via Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習による人間学習のための報酬形成
- Authors: Mark A. Rucker, Layne T. Watson, Matthew S. Gerber and Laura E. Barnes
- Abstract要約: 本研究は,逆強化学習(IRL)による人間に対する報酬形成という新たなタイプの学習支援の有効性を検証する。
この支援の目的は、人間が特定のタスクに対して適切なポリシーを学習できるスピードを高めることである。
我々は,学習支援を受けた選手が,コントロールグループよりも望ましい政策に迅速にアプローチできることを統計的に示す。
- 参考スコア(独自算出の注目度): 4.008936841382692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans are spectacular reinforcement learners, constantly learning from and
adjusting to experience and feedback. Unfortunately, this doesn't necessarily
mean humans are fast learners. When tasks are challenging, learning can become
unacceptably slow. Fortunately, humans do not have to learn tabula rasa, and
learning speed can be greatly increased with learning aids. In this work we
validate a new type of learning aid -- reward shaping for humans via inverse
reinforcement learning (IRL). The goal of this aid is to increase the speed
with which humans can learn good policies for specific tasks. Furthermore this
approach compliments alternative machine learning techniques such as safety
features that try to prevent individuals from making poor decisions. To achieve
our results we first extend a well known IRL algorithm via kernel methods.
Afterwards we conduct two human subjects experiments using an online game where
players have limited time to learn a good policy. We show with statistical
significance that players who receive our learning aid are able to approach
desired policies more quickly than the control group.
- Abstract(参考訳): 人間は素晴らしい強化学習者であり、常に経験やフィードバックから学び、調整する。
残念ながら、これは必ずしも人間が速い学習者であるという意味ではない。
タスクが難しくなると、学習は受け入れがたいほど遅くなります。
幸いなことに、人間はタブララーサを学ぶ必要はなく、学習のスピードは学習の助けを借りて大幅に向上することができる。
本研究では,逆強化学習(IRL)による報酬形成という,新たなタイプの学習支援の有効性を検証する。
この援助の目的は、人間が特定のタスクに対して適切なポリシーを学べる速度を上げることです。
さらにこのアプローチは、個人が決定を下すのを防ぐために安全機能などの代替機械学習テクニックを補完する。
この結果を達成するために,まずカーネルメソッドを通じてよく知られたirlアルゴリズムを拡張する。
その後、プレイヤーが良い方針を学ぶ時間に制限のあるオンラインゲームを用いて、2つの被験者実験を行う。
我々は,学習支援を受けた選手が,コントロールグループよりも望ましい政策に迅速にアプローチできることを統計的に示す。
関連論文リスト
- SPIRE: Synergistic Planning, Imitation, and Reinforcement Learning for Long-Horizon Manipulation [58.14969377419633]
タスクをより小さな学習サブプロブレムに分解し、第2に模倣と強化学習を組み合わせてその強みを最大化するシステムであるspireを提案する。
我々は、模倣学習、強化学習、計画を統合する従来の手法よりも平均タスク性能が35%から50%向上していることを発見した。
論文 参考訳(メタデータ) (2024-10-23T17:42:07Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Human-to-Robot Imitation in the Wild [50.49660984318492]
本研究では,第三者の視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを提案する。
実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。
論文 参考訳(メタデータ) (2022-07-19T17:59:59Z) - Subgoal-based Reward Shaping to Improve Efficiency in Reinforcement
Learning [7.6146285961466]
我々は、ポテンシャルベース報酬形成を拡張し、サブゴールベース報酬形成を提案する。
我々の手法は,人間の訓練者がサブゴールの知識を共有するのを容易にする。
論文 参考訳(メタデータ) (2021-04-13T14:28:48Z) - Reward Shaping with Subgoals for Social Navigation [7.6146285961466]
ソーシャルナビゲーションは、マシンインテリジェンスの成長と共に注目を集めている。
強化学習は、低い計算コストで予測フェーズのアクションを選択することができる。
学習を加速するサブゴールを用いた報酬形成手法を提案する。
論文 参考訳(メタデータ) (2021-04-13T13:52:58Z) - Skillearn: Machine Learning Inspired by Humans' Learning Skills [15.125072827275766]
私たちは、機械の学習を助けるために人間の学習スキルを借りることができるかどうかを調べることに興味があります。
具体的には、これらのスキルを形式化し、より良い機械学習(ML)モデルのトレーニングに活用することを目指しています。
この目標を達成するために、人間の学習スキルを数学的に表現する原則的な方法を提供する一般的なフレームワークであるSkillearnを開発した。
2つのケーススタディでは、Skillearnを使用して人間の2つの学習スキルを形式化します。テストをパスして学習をインターリーブし、形式化されたスキルを使用して神経アーキテクチャ検索を改善します。
論文 参考訳(メタデータ) (2020-12-09T04:56:22Z) - Hierarchical Affordance Discovery using Intrinsic Motivation [69.9674326582747]
本研究では,移動ロボットの価格学習を支援するために,本質的なモチベーションを用いたアルゴリズムを提案する。
このアルゴリズムは、事前にプログラムされたアクションなしで、相互に関連のある価格を自律的に発見し、学習し、適応することができる。
一度学習すると、これらの余裕はアルゴリズムによって様々な困難を伴うタスクを実行するために一連のアクションを計画するために使われる。
論文 参考訳(メタデータ) (2020-09-23T07:18:21Z) - Using Machine Teaching to Investigate Human Assumptions when Teaching
Reinforcement Learners [26.006964607579004]
本稿では,一般的な強化学習手法,Q-ラーニングに着目し,行動実験を用いた仮定について検討する。
本研究では,学習者の環境をシミュレートし,学習者の内的状態にフィードバックがどう影響するかを予測する深層学習近似手法を提案する。
この結果から,評価フィードバックを用いた学習の仕方や,直感的に機械エージェントを設計する方法についてのガイダンスが得られた。
論文 参考訳(メタデータ) (2020-09-05T06:32:38Z) - Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文 参考訳(メタデータ) (2020-07-01T12:31:52Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。