論文の概要: Explainable Action Advising for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2211.07882v1
- Date: Tue, 15 Nov 2022 04:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 13:59:28.897850
- Title: Explainable Action Advising for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のための説明可能な行動助言
- Authors: Yue Guo, Joseph Campbell, Simon Stepputtis, Ruiyu Li, Dana Hughes, Fei
Fang, Katia Sycara
- Abstract要約: アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
- 参考スコア(独自算出の注目度): 32.49380192781649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Action advising is a knowledge transfer technique for reinforcement learning
based on the teacher-student paradigm. An expert teacher provides advice to a
student during training in order to improve the student's sample efficiency and
policy performance. Such advice is commonly given in the form of state-action
pairs. However, it makes it difficult for the student to reason with and apply
to novel states. We introduce Explainable Action Advising, in which the teacher
provides action advice as well as associated explanations indicating why the
action was chosen. This allows the student to self-reflect on what it has
learned, enabling advice generalization and leading to improved sample
efficiency and learning performance - even in environments where the teacher is
sub-optimal. We empirically show that our framework is effective in both
single-agent and multi-agent scenarios, yielding improved policy returns and
convergence rates when compared to state-of-the-art methods.
- Abstract(参考訳): 行動アドバイスは教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
専門教師は、学生のサンプル効率と政策性能を改善するために、訓練中に生徒にアドバイスを提供する。
このようなアドバイスは一般に状態-作用対の形で与えられる。
しかし、学生が新たな国家を論じて適用することは困難である。
本稿では,教師が行動アドバイスを提示する説明可能な行動助言と,行動が選択された理由を示す説明を紹介する。
これにより、生徒は学習したものを自己反映することができ、アドバイスの一般化が可能になり、教師が最適でない環境でもサンプルの効率と学習性能が向上する。
我々は,本フレームワークが単一エージェントとマルチエージェントの両方のシナリオで有効であることを実証的に示す。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Opinion-Guided Reinforcement Learning [0.46040036610482665]
本稿では,強化学習エージェントを意見を通じて指導する手法を提案する。
我々は、異なるレベルの不確実性において、人工的な(オークル)と人間のアドバイザーで評価する。
以上の結果から, たとえ不確実であっても, 強化学習エージェントの性能は向上することが示唆された。
論文 参考訳(メタデータ) (2024-05-27T15:52:27Z) - Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios [3.638198517970729]
実証から学ぶことは、類似エージェントでシステムを訓練する効果的な方法である。
しかし、生徒の能力の限界から外れたデモを自然に複製することは、効率的な学習を制限することができる。
本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-23T05:52:42Z) - Reinforcement Teaching [43.80089037901853]
本稿では,教師の学習過程を制御するためのメタ学習の枠組みである強化指導を提案する。
学生の学習過程はマルコフ報酬プロセスとしてモデル化され、教師は行動空間でマルコフ決定プロセスと相互作用する。
多くの学習過程において、学習可能なパラメータがマルコフ状態を形成することを示し、教師がパラメータから直接学習することを避けるために、入力・出力動作から生徒の状態の表現を学習する埋め込み器を提案する。
論文 参考訳(メタデータ) (2022-04-25T18:04:17Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Action Advising with Advice Imitation in Deep Reinforcement Learning [0.5185131234265025]
行動助言は、教師と学生のパラダイムに基づいて構築されたピアツーピアの知識交換技術です。
本稿では,学生エージェントが以前取得したアドバイスを模倣して,調査方針で直接再利用する手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T04:24:04Z) - Privacy-Preserving Teacher-Student Deep Reinforcement Learning [23.934121758649052]
教師のトレーニングデータセットのプライバシーを保護するプライベートなメカニズムを開発しています。
このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。
論文 参考訳(メタデータ) (2021-02-18T20:15:09Z) - Learning Student-Friendly Teacher Networks for Knowledge Distillation [50.11640959363315]
本研究では,教師から学生への暗黒知識の伝達を容易にする新しい知識蒸留手法を提案する。
事前教育を受けた教師に与えた学習モデルの効果的な学習方法のほとんどとは対照的に,学生に親しみやすい教師モデルを学ぶことを目的とする。
論文 参考訳(メタデータ) (2021-02-12T07:00:17Z) - Generative Inverse Deep Reinforcement Learning for Online Recommendation [62.09946317831129]
オンラインレコメンデーションのための新しい逆強化学習手法InvRecを提案する。
InvRecは、オンラインレコメンデーションのために、ユーザの行動から報酬関数を自動的に抽出する。
論文 参考訳(メタデータ) (2020-11-04T12:12:25Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。