論文の概要: Student/Teacher Advising through Reward Augmentation
- arxiv url: http://arxiv.org/abs/2002.02938v1
- Date: Fri, 7 Feb 2020 18:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:44:07.931452
- Title: Student/Teacher Advising through Reward Augmentation
- Title(参考訳): Reward Augmentation を通じてアドバイスする学生・教師
- Authors: Cameron Reid
- Abstract要約: トランスファーラーニング(Transfer Learning)は、エージェントが別の問題を解決するための知識を利用することで、ある問題を学習するのを助けることを目的としている。
本稿では,教師/学生のフレームワークを,より汎用的な強化学習フレームワークに直接自然に適合させる手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning is an important new subfield of multiagent reinforcement
learning that aims to help an agent learn about a problem by using knowledge
that it has gained solving another problem, or by using knowledge that is
communicated to it by an agent who already knows the problem. This is useful
when one wishes to change the architecture or learning algorithm of an agent
(so that the new knowledge need not be built "from scratch"), when new agents
are frequently introduced to the environment with no knowledge, or when an
agent must adapt to similar but different problems. Great progress has been
made in the agent-to-agent case using the Teacher/Student framework proposed by
(Torrey and Taylor 2013). However, that approach requires that learning from a
teacher be treated differently from learning in every other reinforcement
learning context. In this paper, I propose a method which allows the
teacher/student framework to be applied in a way that fits directly and
naturally into the more general reinforcement learning framework by integrating
the teacher feedback into the reward signal received by the learning agent. I
show that this approach can significantly improve the rate of learning for an
agent playing a one-player stochastic game; I give examples of potential
pitfalls of the approach; and I propose further areas of research building on
this framework.
- Abstract(参考訳): トランスファー学習は、エージェントが別の問題を解決するための知識を使用することや、すでに問題を知っているエージェントがそれと通信する知識を使用することで、問題についてエージェントが学ぶのを助けることを目的とした、マルチエージェント強化学習の重要な新しいサブフィールドである。
これは、エージェントのアーキテクチャや学習アルゴリズムを変更したい場合(新しい知識をスクラッチから構築する必要はない)、新しいエージェントが知識なしで環境に頻繁に導入される場合、またはエージェントが類似しているが異なる問題に適応しなければならない場合に役立つ。
エージェントからエージェントへのケースでは、(torreyとtaylor 2013)によって提案された教師/学生のフレームワークを使って大きな進歩を遂げた。
しかし、このアプローチでは教師からの学習は、他の強化学習コンテキストの学習とは異なる扱いを受ける必要がある。
本稿では,教師のフィードバックを学習エージェントが受信した報奨信号に組み込むことにより,教師/学生の枠組みを,より一般的な強化学習フレームワークに直接的かつ自然な適用を可能にする手法を提案する。
私は、このアプローチが、1人のプレイヤーが確率ゲームを行うエージェントの学習率を大幅に改善できることを示し、そのアプローチの潜在的な落とし穴を例示し、このフレームワークに基づくさらなる研究領域を提案する。
関連論文リスト
- I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Pangu-Agent: A Fine-Tunable Generalist Agent with Structured Reasoning [50.47568731994238]
人工知能(AI)エージェント作成の鍵となる方法は強化学習(RL)である
本稿では,構造化推論をAIエージェントのポリシーに統合し,学習するための一般的なフレームワークモデルを提案する。
論文 参考訳(メタデータ) (2023-12-22T17:57:57Z) - Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations [16.073203911932872]
ピアラーニングは、グループで学ぶエージェントのための新しい高度な強化学習フレームワークである。
ピアラーニングは,OpenAI Gymドメインのいくつかの課題において,単一エージェント学習とベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:01:35Z) - Efficient Open-world Reinforcement Learning via Knowledge Distillation
and Autonomous Rule Discovery [5.680463564655267]
ルール駆動のディープラーニングエージェント(RDQ)がフレームワークの実装の可能な1つだ。
RDQは,世界との対話において,タスク固有のルールを抽出することに成功した。
実験では,RDQエージェントはベースラインエージェントよりも新規性に非常に耐性があることが示されている。
論文 参考訳(メタデータ) (2023-11-24T04:12:50Z) - MERMAIDE: Learning to Align Learners using Model-Based Meta-Learning [62.065503126104126]
本研究では,先見のつかない学習エージェントの報酬を効率よく効果的に介入し,望ましい結果を導き出す方法について検討する。
これはオークションや課税のような現実世界の多くの設定に関係しており、プリンシパルは学習行動や実際の人々の報酬を知らないかもしれない。
モデルに基づくメタ学習フレームワークであるMERMAIDEを導入し,配布外エージェントに迅速に適応できるプリンシパルを訓練する。
論文 参考訳(メタデータ) (2023-04-10T15:44:50Z) - Explaining Agent's Decision-making in a Hierarchical Reinforcement
Learning Scenario [0.6643086804649938]
強化学習(Reinforcement learning)は、行動心理学に基づく機械学習手法である。
本研究では,サブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を利用する。
論文 参考訳(メタデータ) (2022-12-14T01:18:45Z) - Teachable Reinforcement Learning via Advice Distillation [161.43457947665073]
外部教師が提供した構造化アドバイスから学習する「教育可能な」意思決定システムに基づく対話型学習のための新しい指導パラダイムを提案する。
我々は、アドバイスから学ぶエージェントが、標準的な強化学習アルゴリズムよりも人的監督力の少ない新しいスキルを習得できることを示す。
論文 参考訳(メタデータ) (2022-03-19T03:22:57Z) - Deception in Social Learning: A Multi-Agent Reinforcement Learning
Perspective [0.0]
本研究は、問題ステートメントを導入し、重要な概念を定義し、既存の証拠を批判的に評価し、今後の研究で解決すべき課題に対処する。
マルチエージェント強化学習(Multi-Agent Reinforcement Learning)の枠組みの中で、ソーシャルラーニング(Social Learning)は、エージェントが他のエージェントの報酬機能を再形成することを可能にする新しいアルゴリズムのクラスである。
論文 参考訳(メタデータ) (2021-06-09T21:34:11Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Safe Reinforcement Learning via Curriculum Induction [94.67835258431202]
安全クリティカルなアプリケーションでは、自律エージェントはミスが非常にコストがかかる環境で学ぶ必要がある。
既存の安全な強化学習手法は、エージェントが危険な状況を避けるために、事前にエージェントを頼りにしている。
本稿では,エージェントが自動インストラクターの指導の下で学習する,人間の指導にインスパイアされた代替手法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:48:17Z) - Learning from Learners: Adapting Reinforcement Learning Agents to be
Competitive in a Card Game [71.24825724518847]
本稿では,競争力のあるマルチプレイヤーカードゲームの現実的な実装を学習・プレイするために,一般的な強化学習アルゴリズムをどのように適用できるかについて検討する。
本研究は,学習エージェントに対して,エージェントが競争力を持つことの学習方法を評価するための特定のトレーニングと検証ルーチンを提案し,それらが相互の演奏スタイルにどのように適応するかを説明する。
論文 参考訳(メタデータ) (2020-04-08T14:11:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。