論文の概要: Teachable Reinforcement Learning via Advice Distillation
- arxiv url: http://arxiv.org/abs/2203.11197v1
- Date: Sat, 19 Mar 2022 03:22:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 23:54:33.803511
- Title: Teachable Reinforcement Learning via Advice Distillation
- Title(参考訳): アドバイス蒸留による教育性強化学習
- Authors: Olivia Watkins, Trevor Darrell, Pieter Abbeel, Jacob Andreas, Abhishek
Gupta
- Abstract要約: 外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
- 参考スコア(独自算出の注目度): 161.43457947665073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training automated agents to complete complex tasks in interactive
environments is challenging: reinforcement learning requires careful
hand-engineering of reward functions, imitation learning requires specialized
infrastructure and access to a human expert, and learning from intermediate
forms of supervision (like binary preferences) is time-consuming and extracts
little information from each human intervention. Can we overcome these
challenges by building agents that learn from rich, interactive feedback
instead? We propose a new supervision paradigm for interactive learning based
on "teachable" decision-making systems that learn from structured advice
provided by an external teacher. We begin by formalizing a class of
human-in-the-loop decision making problems in which multiple forms of
teacher-provided advice are available to a learner. We then describe a simple
learning algorithm for these problems that first learns to interpret advice,
then learns from advice to complete tasks even in the absence of human
supervision. In puzzle-solving, navigation, and locomotion domains, we show
that agents that learn from advice can acquire new skills with significantly
less human supervision than standard reinforcement learning algorithms and
often less than imitation learning.
- Abstract(参考訳): 強化学習には報酬関数の慎重なハンドエンジニアリングが必要であり、模倣学習には特別なインフラと人間の専門家へのアクセスが必要であり、中間的な形式の監督(二元的嗜好など)からの学習には時間がかかり、人間の介入からほとんど情報を取り出すことができない。
リッチでインタラクティブなフィードバックから学ぶエージェントを構築することで、これらの課題を克服できますか?
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々はまず,教師が提供する複数のアドバイスを学習者に提供可能な,ループ内意思決定のクラスを定式化することから始める。
次に、まずアドバイスを解釈し、次にアドバイスから学び、人間の監督がなくてもタスクを完了させる、これらの問題に対する単純な学習アルゴリズムを記述する。
パズル解決,ナビゲーション,移動領域において,アドバイスから学習するエージェントは,標準的な強化学習アルゴリズムよりも人的監督力が少なく,模倣学習よりもはるかに少ない新しいスキルを習得できることを示す。
関連論文リスト
- Multi-agent cooperation through learning-aware policy gradients [53.63948041506278]
利己的な個人はしばしば協力に失敗し、マルチエージェント学習の根本的な課題を提起する。
本稿では,学習型強化学習のための,偏見のない高導出性ポリシー勾配アルゴリズムを提案する。
我々は, 受刑者のジレンマから, 自己関心のある学習エージェントの間でどのように, いつ, 協力関係が生じるかの新たな説明を得た。
論文 参考訳(メタデータ) (2024-10-24T10:48:42Z) - LiFT: Unsupervised Reinforcement Learning with Foundation Models as
Teachers [59.69716962256727]
本研究では,人間からのフィードバックを伴わずに意味論的に意味のある行動を取得するための強化学習エージェントを指導する枠組みを提案する。
本フレームワークでは,大規模言語モデルから学習環境に根ざしたタスク命令を受信する。
我々は,オープンエンドのMineDojo環境において,意味的に意味のあるスキルを学習できることを実証した。
論文 参考訳(メタデータ) (2023-12-14T14:07:41Z) - Human Decision Makings on Curriculum Reinforcement Learning with
Difficulty Adjustment [52.07473934146584]
我々は,カリキュラム強化学習結果を,人的意思決定プロセスから学ぶことで,難しすぎず,難しすぎるような望ましいパフォーマンスレベルに導く。
本システムは非常に並列化可能であり,大規模強化学習アプリケーションの訓練が可能となる。
強化学習性能は、人間の所望の難易度と同期してうまく調整できることが示される。
論文 参考訳(メタデータ) (2022-08-04T23:53:51Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Systematic human learning and generalization from a brief tutorial with
explanatory feedback [3.7826494079172557]
本研究では,人間の成体による抽象的推論課題の学習能力について考察する。
課題をマスターする参加者は,少数の試行錯誤で達成し,学習範囲外のパズルによく当てはまる。
また,課題を習得した者の多くは有効な解法戦略を記述でき,その参加者は,戦略記述が曖昧で不完全である者よりも,伝達パズルに優れていた。
論文 参考訳(メタデータ) (2021-07-10T00:14:41Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Deep Reinforcement Learning with Interactive Feedback in a Human-Robot
Environment [1.2998475032187096]
対話型フィードバックを用いた深層強化学習手法を提案し,人間ロボットのシナリオで家庭内課題を学習する。
シミュレーションロボットアームを用いた3つの学習手法を比較し,異なる物体を整理する作業について検討した。
その結果、学習エージェントは、エージェントIDeepRLまたはヒューマンIDeepRLを使用して、与えられたタスクを早期に完了し、自律的なDeepRLアプローチと比較して誤りが少ないことがわかった。
論文 参考訳(メタデータ) (2020-07-07T11:55:27Z) - Learning Transferable Concepts in Deep Reinforcement Learning [0.7161783472741748]
感覚入力の離散的な表現を学習することで、複数のタスクに共通するハイレベルな抽象化が得られることを示す。
特に,情報理論のアプローチに従って,自己超越によってそのような表現を学習することは可能であることを示す。
本手法は, 未知タスクと未知タスクの両方において, サンプル効率を高めるための, 機関車および最適制御タスクの概念を学習することができる。
論文 参考訳(メタデータ) (2020-05-16T04:45:51Z) - KoGuN: Accelerating Deep Reinforcement Learning via Integrating Human
Suboptimal Knowledge [40.343858932413376]
我々は,人間の事前最適知識と強化学習を組み合わせた新しい枠組みである知識誘導政策ネットワーク(KoGuN)を提案する。
我々のフレームワークは、人間の知識を表すファジィルールコントローラと、微調整されたサブ最適事前知識を表す洗練されたモジュールで構成されている。
論文 参考訳(メタデータ) (2020-02-18T07:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。