論文の概要: Guarded Policy Optimization with Imperfect Online Demonstrations
- arxiv url: http://arxiv.org/abs/2303.01728v2
- Date: Mon, 24 Apr 2023 03:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 20:48:52.012553
- Title: Guarded Policy Optimization with Imperfect Online Demonstrations
- Title(参考訳): 不完全なオンラインデモによるガード付き政策最適化
- Authors: Zhenghai Xue, Zhenghao Peng, Quanyi Li, Zhihan Liu, Bolei Zhou
- Abstract要約: Teacher-Student Frameworkは、教師エージェントが学生エージェントのトレーニングをガードする強化学習環境である。
成績の良い教師の政策を得るのは費用がかかるか、あるいは不可能である。
そこで我々は,任意の教師ポリシーを質素あるいは劣悪な性能で組み込む新しい手法を開発した。
- 参考スコア(独自算出の注目度): 32.22880650876471
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Teacher-Student Framework (TSF) is a reinforcement learning setting where
a teacher agent guards the training of a student agent by intervening and
providing online demonstrations. Assuming optimal, the teacher policy has the
perfect timing and capability to intervene in the learning process of the
student agent, providing safety guarantee and exploration guidance.
Nevertheless, in many real-world settings it is expensive or even impossible to
obtain a well-performing teacher policy. In this work, we relax the assumption
of a well-performing teacher and develop a new method that can incorporate
arbitrary teacher policies with modest or inferior performance. We instantiate
an Off-Policy Reinforcement Learning algorithm, termed Teacher-Student Shared
Control (TS2C), which incorporates teacher intervention based on
trajectory-based value estimation. Theoretical analysis validates that the
proposed TS2C algorithm attains efficient exploration and substantial safety
guarantee without being affected by the teacher's own performance. Experiments
on various continuous control tasks show that our method can exploit teacher
policies at different performance levels while maintaining a low training cost.
Moreover, the student policy surpasses the imperfect teacher policy in terms of
higher accumulated reward in held-out testing environments. Code is available
at https://metadriverse.github.io/TS2C.
- Abstract(参考訳): teacher-sudent framework (tsf) は、教師エージェントが学生エージェントのトレーニングを、オンラインデモの参加と提供によって保護する強化学習設定である。
最適と仮定すると、教師方針は学生エージェントの学習過程に介入する完璧なタイミングと能力を持ち、安全保証と探索指導を提供する。
しかし、現実の多くの環境では、高いか、あるいは優れた教師の政策を得ることができない。
本研究では,優れた教師の仮定を緩和し,任意の教師方針を質素あるいは劣悪なパフォーマンスで組み込む新しい手法を開発する。
我々は,ts2cと呼ばれる,軌道に基づく価値推定に基づく教師の介入を組み込んだオフ・ポリシー強化学習アルゴリズムをインスタンス化する。
理論解析により,TS2Cアルゴリズムは教師自身のパフォーマンスに影響されずに,効率的な探索と実質的な安全保証を実現することが検証された。
各種連続制御タスクにおける実験により, 学習コストを低く抑えつつ, 異なるパフォーマンスレベルにおける教員方針を活用できることを示した。
さらに, 学生政策は, 不完全な教員政策を, ホールドアウトテスト環境において, 高蓄積報酬の観点から超越している。
コードはhttps://metadriverse.github.io/TS2Cで入手できる。
関連論文リスト
- Policy composition in reinforcement learning via multi-objective policy
optimization [44.23907077052036]
教師の政策が学習のスピードアップ,特に報酬形成の欠如に有効であることを示す。
ヒューマノイド領域では、エージェントに教師の選択を制御する能力も備えている。
論文 参考訳(メタデータ) (2023-08-29T17:50:27Z) - TGRL: An Algorithm for Teacher Guided Reinforcement Learning [45.38447023752256]
強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。
私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
論文 参考訳(メタデータ) (2023-07-06T17:58:40Z) - Toward Student-Oriented Teacher Network Training For Knowledge Distillation [40.55715466657349]
本稿では,リプシッツ正則化と整合性正則化を取り入れた教員養成手法SoTeacherを提案する。
様々な知識蒸留アルゴリズムと教師と学生のペアを用いたベンチマークデータセットの実験は、SoTeacherが生徒の精度を一貫して改善できることを確認した。
論文 参考訳(メタデータ) (2022-06-14T07:51:25Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Self-Training with Differentiable Teacher [80.62757989797095]
自己学習は、様々な半教師付きおよび弱教師付き学習タスクで大きな成功を収める。
この手法は、教師が擬似ラベルを生成し、生徒が予測を行う教師学生の枠組みとして解釈できる。
そこで我々は,教師学生をStackelbergゲームとして扱う,差別化可能な自己学習法を提案する。
論文 参考訳(メタデータ) (2021-09-15T02:06:13Z) - Learning to Teach with Student Feedback [67.41261090761834]
対話的知識蒸留 (Interactive Knowledge Distillation, IKD) は、教師が生徒のフィードバックから教えることを学ぶことを可能にする。
IKDは教師モデルを訓練し、特定の学生のトレーニングステップごとに特定のソフトターゲットを生成する。
教師と生徒の協調的な最適化は2つの反復的なステップによって達成される。
論文 参考訳(メタデータ) (2021-09-10T03:01:01Z) - Privacy-Preserving Teacher-Student Deep Reinforcement Learning [23.934121758649052]
教師のトレーニングデータセットのプライバシーを保護するプライベートなメカニズムを開発しています。
このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。
論文 参考訳(メタデータ) (2021-02-18T20:15:09Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。