論文の概要: CoachNet: An Adversarial Sampling Approach for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2101.02649v1
- Date: Thu, 7 Jan 2021 17:45:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-10 13:27:21.691631
- Title: CoachNet: An Adversarial Sampling Approach for Reinforcement Learning
- Title(参考訳): CoachNet: 強化学習のための逆サンプリングアプローチ
- Authors: Elmira Amirloo Abolfathi, Jun Luo, Peyman Yadmellat, Kasra Rezaee
- Abstract要約: CoachNet」という障害予測器による新たな逆サンプリング手法を提案する。
CoachNetはエージェントとともにオンラインでトレーニングされ、失敗の確率を予測します。
この確率はサンプリングプロセスでエージェントをより困難なエピソードに導くために使用される。
- 参考スコア(独自算出の注目度): 4.084676597739002
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the recent successes of reinforcement learning in games and robotics,
it is yet to become broadly practical. Sample efficiency and unreliable
performance in rare but challenging scenarios are two of the major obstacles.
Drawing inspiration from the effectiveness of deliberate practice for achieving
expert-level human performance, we propose a new adversarial sampling approach
guided by a failure predictor named "CoachNet". CoachNet is trained online
along with the agent to predict the probability of failure. This probability is
then used in a stochastic sampling process to guide the agent to more
challenging episodes. This way, instead of wasting time on scenarios that the
agent has already mastered, training is focused on the agent's "weak spots". We
present the design of CoachNet, explain its underlying principles, and
empirically demonstrate its effectiveness in improving sample efficiency and
test-time robustness in common continuous control tasks.
- Abstract(参考訳): 近年のゲームやロボティクスにおける強化学習の成功にもかかわらず、まだ広く実用化されていない。
サンプル効率と信頼性に乏しいシナリオでは,大きな障害が2つある。
専門家レベルの人的パフォーマンスを達成するための故意の実践の効果からインスピレーションを得て,我々は"CoachNet"と呼ばれる障害予測器によって導かれる新たな逆サンプリング手法を提案する。
CoachNetは、エージェントとともにオンラインでトレーニングされ、失敗の確率を予測する。
この確率は、確率的サンプリングプロセスでエージェントをより困難なエピソードに導くために使用される。
このように、エージェントが既にマスターしたシナリオに時間を費やす代わりに、トレーニングはエージェントの"弱所"に焦点を当てる。
我々はCoachNetの設計、基礎となる原理を説明し、共通の継続的制御タスクにおけるサンプル効率とテスト時間ロバスト性を改善する効果を実証的に実証する。
関連論文リスト
- Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Fast Propagation is Better: Accelerating Single-Step Adversarial
Training via Sampling Subnetworks [69.54774045493227]
逆行訓練の欠点は、逆行例の生成によって引き起こされる計算オーバーヘッドである。
モデルの内部構造ブロックを利用して効率を向上させることを提案する。
従来の手法と比較して,本手法はトレーニングコストを削減できるだけでなく,モデルの堅牢性も向上する。
論文 参考訳(メタデータ) (2023-10-24T01:36:20Z) - Handling Sparse Rewards in Reinforcement Learning Using Model Predictive
Control [9.118706387430883]
強化学習(RL)は近年,様々な分野で大きな成功を収めている。
しかし、報酬関数の設計には、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整が必要である。
本稿では,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御(MPC)を提案する。
論文 参考訳(メタデータ) (2022-10-04T11:06:38Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - On Transfer of Adversarial Robustness from Pretraining to Downstream
Tasks [1.8900691517352295]
下流タスクにおける線形予測子のロバスト性は、その基盤となる表現のロバスト性によって制約できることを示す。
本結果は,適応後の信頼性向上のために,表現関数の要求を特徴付けるための最初のステップを提供する。
論文 参考訳(メタデータ) (2022-08-07T23:00:40Z) - Coach-assisted Multi-Agent Reinforcement Learning Framework for
Unexpected Crashed Agents [120.91291581594773]
本稿では,予期せぬクラッシュを伴う協調型マルチエージェント強化学習システムの公式な定式化について述べる。
本稿では,教師支援型多エージェント強化学習フレームワークを提案する。
私たちの知る限りでは、この研究はマルチエージェントシステムにおける予期せぬクラッシュを初めて研究したものです。
論文 参考訳(メタデータ) (2022-03-16T08:22:45Z) - Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。
本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文 参考訳(メタデータ) (2022-02-09T08:38:50Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Towards Understanding Fast Adversarial Training [91.8060431517248]
高速対人訓練の振る舞いを理解するために実験を行う。
その成功の鍵は、過度な適合から弱い攻撃への回復能力である。
論文 参考訳(メタデータ) (2020-06-04T18:19:43Z) - HYDRA: Pruning Adversarially Robust Neural Networks [58.061681100058316]
ディープラーニングは、敵対的攻撃に対する堅牢性の欠如と、大規模なニューラルネットワークサイズという、2つの大きな課題に直面している。
そこで本稿では,頑健なトレーニング目標を意識したプルーニング手法を提案し,トレーニング目標にプルーンへの接続を探索させる。
HYDRAと題する我々の手法は,最先端のベニグニグニグニグニグニとロバストな精度で圧縮されたネットワークを同時に実現できることを実証する。
論文 参考訳(メタデータ) (2020-02-24T19:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。