論文の概要: Learning Rewards to Optimize Global Performance Metrics in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.09027v1
- Date: Thu, 16 Mar 2023 01:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:12:15.216599
- Title: Learning Rewards to Optimize Global Performance Metrics in Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習におけるグローバルパフォーマンスメトリクス最適化のための学習報酬
- Authors: Junqi Qian, Paul Weng, Chenmien Tan
- Abstract要約: 我々は,グローバルな性能指標を最適化できる新しいRL法LR4GPMを提案する。
いくつかの領域におけるLR4GPMの効率を実証する。
特に、LR4GPMは最近の自動運転コンペで優勝者を上回っている。
- 参考スコア(独自算出の注目度): 6.68194398006805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When applying reinforcement learning (RL) to a new problem, reward
engineering is a necessary, but often difficult and error-prone task a system
designer has to face. To avoid this step, we propose LR4GPM, a novel (deep) RL
method that can optimize a global performance metric, which is supposed to be
available as part of the problem description. LR4GPM alternates between two
phases: (1) learning a (possibly vector) reward function used to fit the
performance metric, and (2) training a policy to optimize an approximation of
this performance metric based on the learned rewards. Such RL training is not
straightforward since both the reward function and the policy are trained using
non-stationary data. To overcome this issue, we propose several training
tricks. We demonstrate the efficiency of LR4GPM on several domains. Notably,
LR4GPM outperforms the winner of a recent autonomous driving competition
organized at DAI'2020.
- Abstract(参考訳): 新しい問題に強化学習(rl)を適用する場合、報酬工学は必要だが、しばしばシステム設計者が直面する困難でエラーやすいタスクである。
このステップを回避するために,問題記述の一部として利用できると思われるグローバルパフォーマンスメトリックを最適化できる新しい(深度)RL法であるLR4GPMを提案する。
LR4GPMは,(1) 評価基準に適合する(おそらくベクトル)報酬関数を学習し,(2) 学習報酬に基づいて,この評価指標の近似を最適化するためのポリシーを訓練する。
このようなRLトレーニングは、報酬関数とポリシーの両方が非定常データを用いてトレーニングされているため、簡単ではない。
この問題を克服するために,我々はいくつかの訓練手法を提案する。
いくつかの領域におけるLR4GPMの効率を実証する。
特に、LR4GPMは、DAI'2020で主催された最近の自動運転コンペティションの勝者よりも優れています。
関連論文リスト
- Mind the Gap: Offline Policy Optimization for Imperfect Rewards [14.874900923808408]
多様な不完全な報酬を処理できる統合オフラインポリシー最適化手法である textitRGM (Reward Gap Minimization) を提案する。
下位層の双対性を生かして,オンラインインタラクションを伴わずにサンプルベースの学習を可能にする,抽出可能なアルゴリズムを導出する。
論文 参考訳(メタデータ) (2023-02-03T11:39:50Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [69.34786676356717]
本稿では,ロバスト性の制御されたメタRL目標を提案する。
我々は,前者はMRLで消滅し,後者はロバストメタRLアルゴリズム(RoML)を用いて処理することを示す。
RoMLはメタアルゴリズムであり、トレーニングを通じて難しいタスクを特定し、オーバーサンプリングすることで、任意のMRLアルゴリズムの堅牢なバージョンを生成する。
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Reinforcement Learning Agent Training with Goals for Real World Tasks [3.747737951407512]
強化学習(RL)は、様々な制御、最適化、シーケンシャルな意思決定タスクを解決するための有望なアプローチである。
複雑な制御および最適化タスクのための仕様言語(Inkling Goal Specification)を提案する。
提案手法は現実世界のタスクを多種多様なタスクで指定するのに非常に容易であることを示す実験のセットを含む。
論文 参考訳(メタデータ) (2021-07-21T23:21:16Z) - Simplifying Deep Reinforcement Learning via Self-Supervision [51.2400839966489]
自己改善強化学習(Self-Supervised Reinforcement Learning, SSRL)は、純粋に監督された損失を伴うポリシーを最適化する単純なアルゴリズムである。
SSRLは、より安定した性能と実行時間の少ない現代アルゴリズムと驚くほど競合することを示す。
論文 参考訳(メタデータ) (2021-06-10T06:29:59Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z) - Rewriting History with Inverse RL: Hindsight Inference for Policy
Improvement [137.29281352505245]
この結果から,多くのタスクを効率よく解くために,RLアルゴリズムのタンデムに逆RLを使用できることが示唆された。
実験により,逆RLを用いた学習が一般的なマルチタスク環境における学習を加速することを確認した。
論文 参考訳(メタデータ) (2020-02-25T18:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。