論文の概要: Learning to Shape Rewards using a Game of Switching Controls
- arxiv url: http://arxiv.org/abs/2103.09159v1
- Date: Tue, 16 Mar 2021 15:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-17 13:34:06.562346
- Title: Learning to Shape Rewards using a Game of Switching Controls
- Title(参考訳): スイッチング制御ゲームを用いたリワードの形状学習
- Authors: David Mguni, Jianhong Wang, Taher Jafferjee, Nicolas Perez-Nieves,
Wenbin Song, Yaodong Yang, Feifei Tong, Hui Chen, Jiangcheng Zhu, Yali Du,
Jun Wang
- Abstract要約: 2つのエージェント間の新しいゲームでシェーピング報酬関数を構築する自動RSフレームワークを紹介します。
我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適した整形逆戻り関数を構築することを学ぶことを理論的に証明した。
我々は、Cartpoleの最先端のRSアルゴリズムと挑戦的なコンソールゲームGravitar、Solaris、Super Marioに対する私たちの方法の優れたパフォーマンスを実証します。
- 参考スコア(独自算出の注目度): 21.456451774045465
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward shaping (RS) is a powerful method in reinforcement learning (RL) for
overcoming the problem of sparse and uninformative rewards. However, RS relies
on manually engineered shaping-reward functions whose construction is typically
time-consuming and error-prone. It also requires domain knowledge which runs
contrary to the goal of autonomous learning. In this paper, we introduce an
automated RS framework in which the shaping-reward function is constructed in a
novel stochastic game between two agents. One agent learns both which states to
add shaping rewards and their optimal magnitudes and the other agent learns the
optimal policy for the task using the shaped rewards. We prove theoretically
that our framework, which easily adopts existing RL algorithms, learns to
construct a shaping-reward function that is tailored to the task and ensures
convergence to higher performing policies for the given task. We demonstrate
the superior performance of our method against state-of-the-art RS algorithms
in Cartpole and the challenging console games Gravitar, Solaris and Super
Mario.
- Abstract(参考訳): リワードシェーピング(Reward shaping, RL)は、スパースと非形式的報酬の問題を克服する強力な手法である。
しかし、RSは手動で設計したシェーピング・リワード関数に頼っている。
また、自律学習の目標とは逆のドメイン知識を必要とする。
本稿では,2つのエージェント間の新しい確率ゲームにおいて,シェーピング・リワード機能を構築する自動RSフレームワークを提案する。
あるエージェントは、どの状態に成形報酬と最適な大きさを加えるかを学習し、もう一方のエージェントは、形状の報酬を使用してタスクの最適ポリシーを学ぶ。
我々は,既存のRLアルゴリズムを簡単に適用可能なフレームワークが,タスクに適合した整形・逆戻り関数の構築を学習し,与えられたタスクに対するより高い実行ポリシーへの収束を保証することを理論的に証明した。
本稿では,Cartpoleの最先端RSアルゴリズムと,Gravitar,Solaris,Super Marioの挑戦型コンソールゲームに対して,提案手法の優れた性能を示す。
関連論文リスト
- ORSO: Accelerating Reward Design via Online Reward Selection and Policy Optimization [41.074747242532695]
Online Reward Selection and Policy Optimization (ORSO)は、オンラインモデル選択問題として報酬選択を形作る新しいアプローチである。
ORSOは、人間の介入なしに有望な報酬関数を自動的に識別するために、原則化された探索戦略を採用している。
我々はIsaac Gymシミュレータを用いて,様々な連続制御タスクに対してORSOの有効性を示す。
論文 参考訳(メタデータ) (2024-10-17T17:55:05Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Inverse Preference Learning: Preference-based RL without a Reward
Function [34.31087304327075]
Inverse Preference Learning (IPL) は、オフラインの嗜好データから学習するために特別に設計された。
我々の重要な洞察は、固定されたポリシーに対して、$Q$関数は報酬関数に関する全ての情報をエンコードし、効果的に交換可能であることである。
IPLは、トランスフォーマーベースおよび非マルコフ報酬関数を利用するより複雑なアプローチと比較して、競争性能が向上する。
論文 参考訳(メタデータ) (2023-05-24T17:14:10Z) - Read and Reap the Rewards: Learning to Play Atari with the Help of Instruction Manuals [69.76245723797368]
Read and Rewardは、Atariゲーム開発者がリリースしたマニュアルを読むことで、Atariゲーム上のRLアルゴリズムを高速化する。
各種RLアルゴリズムは,設計支援による性能向上とトレーニング速度の向上を実現している。
論文 参考訳(メタデータ) (2023-02-09T05:47:03Z) - Learning of Parameters in Behavior Trees for Movement Skills [0.9562145896371784]
振舞い木(BT)は、モジュラーと構成可能なスキルをサポートするポリシー表現を提供することができる。
本稿では,BTポリシーのパラメータをシミュレーションで学習し,追加のトレーニングを伴わずに物理ロボットに一般化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-09-27T13:46:39Z) - Composable Learning with Sparse Kernel Representations [110.19179439773578]
再生カーネルヒルベルト空間におけるスパース非パラメトリック制御系を学習するための強化学習アルゴリズムを提案する。
正規化アドバンテージ関数を通じてステートアクション関数の構造を付与することにより、このアプローチのサンプル複雑さを改善します。
2次元環境下を走行しながらレーザースキャナーを搭載したロボットの複数シミュレーションにおける障害物回避政策の学習に関するアルゴリズムの性能を実証する。
論文 参考訳(メタデータ) (2021-03-26T13:58:23Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Learning to Utilize Shaping Rewards: A New Approach of Reward Shaping [71.214923471669]
リワード整形は、ドメイン知識を強化学習(RL)に組み込む効果的な手法である
本稿では,所定の整形報酬関数を適応的に活用する問題を考察する。
スパース逆カートポールとMuJoCo環境の実験は、我々のアルゴリズムが有益な整形報酬を完全に活用できることを示している。
論文 参考訳(メタデータ) (2020-11-05T05:34:14Z) - Reward Machines: Exploiting Reward Function Structure in Reinforcement
Learning [22.242379207077217]
報酬関数のコードをRLエージェントに示すことで、関数の内部構造を利用して最適なポリシーを学習する方法を示す。
まず、報酬関数の仕様をサポートする有限状態機械の一種である報酬機械を提案する。
次に、この構造を利用して、自動報酬形成、タスク分解、非政治的学習による対実的推論など、学習を支援する方法について述べる。
論文 参考訳(メタデータ) (2020-10-06T00:10:16Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。