論文の概要: Policy Learning Using Weak Supervision
- arxiv url: http://arxiv.org/abs/2010.01748v3
- Date: Tue, 2 Nov 2021 13:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:44:22.417240
- Title: Policy Learning Using Weak Supervision
- Title(参考訳): 弱い監督による政策学習
- Authors: Jingkang Wang, Hongyi Guo, Zhaowei Zhu, Yang Liu
- Abstract要約: 我々は、利用可能な安価な弱監督機構を活用して、政策学習を効率的に行う統一的なフレームワークを目指しています。
我々のアプローチは、弱い監督者に過度に適合する政策を明示的に罰する。
理論的な保証に加えて、雑音の多い報酬を持つRL、弱い実演を持つBC、標準ポリシーコトレーニングなどのタスクに対する広範な評価は、我々の手法が大幅な性能改善につながることを示している。
- 参考スコア(独自算出の注目度): 18.540550726629995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing policy learning solutions require the learning agents to
receive high-quality supervision signals such as well-designed rewards in
reinforcement learning (RL) or high-quality expert demonstrations in behavioral
cloning (BC). These quality supervisions are usually infeasible or
prohibitively expensive to obtain in practice. We aim for a unified framework
that leverages the available cheap weak supervisions to perform policy learning
efficiently. To handle this problem, we treat the "weak supervision" as
imperfect information coming from a peer agent, and evaluate the learning
agent's policy based on a "correlated agreement" with the peer agent's policy
(instead of simple agreements). Our approach explicitly punishes a policy for
overfitting to the weak supervision. In addition to theoretical guarantees,
extensive evaluations on tasks including RL with noisy rewards, BC with weak
demonstrations, and standard policy co-training show that our method leads to
substantial performance improvements, especially when the complexity or the
noise of the learning environments is high.
- Abstract(参考訳): 既存の政策学習ソリューションの多くは、強化学習(RL)や行動クローニング(BC)における高品質な専門家のデモンストレーションなど、学習エージェントに高品質な監視信号を受け取る必要がある。
これらの品質の監督は通常、実現不可能なか、あるいは実際に得るのに非常に高価である。
我々は、利用可能な安価で弱い監督を活用し、ポリシー学習を効率的に行う統一フレームワークを目標としている。
この問題に対処するため,我々は,ピアエージェントから得られる不完全な情報として「弱監督」を扱い,ピアエージェントの方針と(単純な合意ではなく)「関連協定」に基づいて学習エージェントの方針を評価する。
我々のアプローチは、弱い監督に過度に適合する政策を明示的に罰する。
理論的な保証に加えて, ノイズの少ないrl, 弱いデモを伴うbc, および標準ポリシーのコトレーニングといったタスクの広範な評価により, 学習環境の複雑さや騒音が高い場合には, 性能が大幅に向上することが示された。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Belief-Enriched Pessimistic Q-Learning against Adversarial State
Perturbations [5.076419064097735]
近年の研究では、十分に訓練されたRL剤は、試験段階における状態観察を戦略的に摂動させることで容易に操作できることが示されている。
既存のソリューションは、摂動に対する訓練されたポリシーの滑らかさを改善するために正規化用語を導入するか、代わりにエージェントのポリシーと攻撃者のポリシーを訓練する。
本稿では,エージェントの真の状態に対する不確実性を保護するための悲観的ポリシーを導出する,新しいロバストなRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T20:52:49Z) - Adversarially Guided Subgoal Generation for Hierarchical Reinforcement
Learning [5.514236598436977]
本稿では,低レベル政策の現在のインスタンス化に適合するサブゴールを生成するために,高レベル政策を反対に強制することで,非定常性を緩和する新たなHRL手法を提案する。
最先端のアルゴリズムを用いた実験により,本手法は様々な難易度連続制御タスクにおいて,HRLの学習効率と全体的な性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2022-01-24T12:30:38Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Robust Reinforcement Learning on State Observations with Learned Optimal
Adversary [86.0846119254031]
逆摂動状態観測による強化学習の堅牢性について検討した。
固定されたエージェントポリシーでは、摂動状態の観測に最適な敵を見つけることができる。
DRLの設定では、これは以前のものよりもはるかに強い学習された敵対を介してRLエージェントに新しい経験的敵対攻撃につながります。
論文 参考訳(メタデータ) (2021-01-21T05:38:52Z) - Robust Deep Reinforcement Learning through Adversarial Loss [74.20501663956604]
近年の研究では、深層強化学習剤は、エージェントの入力に対する小さな逆方向の摂動に弱いことが示されている。
敵攻撃に対する堅牢性を向上した強化学習エージェントを訓練するための原則的フレームワークであるRADIAL-RLを提案する。
論文 参考訳(メタデータ) (2020-08-05T07:49:42Z) - Robust Deep Reinforcement Learning against Adversarial Perturbations on
State Observations [88.94162416324505]
深部強化学習(DRL)エージェントは、自然な測定誤差や対向雑音を含む観測を通して、その状態を観察する。
観測は真の状態から逸脱するので、エージェントを誤解させ、準最適行動を起こすことができる。
本研究は, 従来の手法を, 対人訓練などの分類タスクの堅牢性向上に応用することは, 多くのRLタスクには有効でないことを示す。
論文 参考訳(メタデータ) (2020-03-19T17:59:59Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。