論文の概要: Learning Rewards to Optimize Global Performance Metrics in Deep
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.09027v1
- Date: Thu, 16 Mar 2023 01:43:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 17:12:15.216599
- Title: Learning Rewards to Optimize Global Performance Metrics in Deep
Reinforcement Learning
- Title(参考訳): 深層強化学習におけるグローバルパフォーマンスメトリクス最適化のための学習報酬
- Authors: Junqi Qian, Paul Weng, Chenmien Tan
- Abstract要約: 我々は,グローバルな性能指標を最適化できる新しいRL法LR4GPMを提案する。
いくつかの領域におけるLR4GPMの効率を実証する。
特に、LR4GPMは最近の自動運転コンペで優勝者を上回っている。
- 参考スコア(独自算出の注目度): 6.68194398006805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When applying reinforcement learning (RL) to a new problem, reward
engineering is a necessary, but often difficult and error-prone task a system
designer has to face. To avoid this step, we propose LR4GPM, a novel (deep) RL
method that can optimize a global performance metric, which is supposed to be
available as part of the problem description. LR4GPM alternates between two
phases: (1) learning a (possibly vector) reward function used to fit the
performance metric, and (2) training a policy to optimize an approximation of
this performance metric based on the learned rewards. Such RL training is not
straightforward since both the reward function and the policy are trained using
non-stationary data. To overcome this issue, we propose several training
tricks. We demonstrate the efficiency of LR4GPM on several domains. Notably,
LR4GPM outperforms the winner of a recent autonomous driving competition
organized at DAI'2020.
- Abstract(参考訳): 新しい問題に強化学習(rl)を適用する場合、報酬工学は必要だが、しばしばシステム設計者が直面する困難でエラーやすいタスクである。
このステップを回避するために,問題記述の一部として利用できると思われるグローバルパフォーマンスメトリックを最適化できる新しい(深度)RL法であるLR4GPMを提案する。
LR4GPMは,(1) 評価基準に適合する(おそらくベクトル)報酬関数を学習し,(2) 学習報酬に基づいて,この評価指標の近似を最適化するためのポリシーを訓練する。
このようなRLトレーニングは、報酬関数とポリシーの両方が非定常データを用いてトレーニングされているため、簡単ではない。
この問題を克服するために,我々はいくつかの訓練手法を提案する。
いくつかの領域におけるLR4GPMの効率を実証する。
特に、LR4GPMは、DAI'2020で主催された最近の自動運転コンペティションの勝者よりも優れています。
関連論文リスト
- Adaptive Reward Design for Reinforcement Learning in Complex Robotic Tasks [2.3031174164121127]
本稿では,RLエージェントにインセンティブを与える報酬関数群を提案する。
学習過程における報酬関数を動的に更新する適応型報酬生成手法を開発した。
様々なRLに基づくロボットタスクの実験結果から,提案手法が様々なRLアルゴリズムと互換性があることが示されている。
論文 参考訳(メタデータ) (2024-12-14T18:04:18Z) - Enhancing Spectrum Efficiency in 6G Satellite Networks: A GAIL-Powered Policy Learning via Asynchronous Federated Inverse Reinforcement Learning [67.95280175998792]
ビームフォーミング,スペクトルアロケーション,リモートユーザ機器(RUE)アソシエイトを最適化するために,GAILを利用した新しいポリシー学習手法を提案する。
手動チューニングなしで報酬関数を自動的に学習するために、逆RL(IRL)を用いる。
提案手法は従来のRL手法よりも優れており,コンバージェンスと報酬値の14.6%の改善が達成されている。
論文 参考訳(メタデータ) (2024-09-27T13:05:02Z) - Leveraging Sub-Optimal Data for Human-in-the-Loop Reinforcement Learning [7.07264650720021]
サブ最適データ事前学習(Sub-Optimal Data Pre-training, SDP)は、HitL RLアルゴリズムを改善するために、報酬のないサブ最適データを活用するアプローチである。
我々はSDPが最先端のHitL RLアルゴリズムによる競合性能を大幅に向上または達成できることを示す。
論文 参考訳(メタデータ) (2024-04-30T18:58:33Z) - REBEL: Reward Regularization-Based Approach for Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数と人間の嗜好の相違は、現実世界で破滅的な結果をもたらす可能性がある。
近年の手法は、人間の嗜好から報酬関数を学習することで、不適応を緩和することを目的としている。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Learning to Optimize for Reinforcement Learning [58.01132862590378]
強化学習(Reinforcement Learning, RL)は、教師付き学習とは本質的に異なり、実際、これらの学習は単純なRLタスクでもうまく機能しない。
エージェント勾配分布は非独立で同一分布であり、非効率なメタトレーニングをもたらす。
おもちゃのタスクでしか訓練されていないが、我々の学習はブラックスの目に見えない複雑なタスクを一般化できることを示した。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Train Hard, Fight Easy: Robust Meta Reinforcement Learning [78.16589993684698]
実世界のアプリケーションにおける強化学習(RL)の大きな課題は、環境、タスク、クライアントの違いである。
標準的なMRL法は、タスクよりも平均的なリターンを最適化するが、リスクや難易度の高いタスクでは悪い結果に悩まされることが多い。
本研究では, MRL の頑健な目標を制御レベルで定義する。
ロバストメタRLアルゴリズム(RoML)を用いてデータ非効率に対処する
論文 参考訳(メタデータ) (2023-01-26T14:54:39Z) - Curriculum-based Asymmetric Multi-task Reinforcement Learning [14.5357225087828]
本稿では,複数の強化学習(RL)タスクを完全に処理するための,最初のカリキュラムベースの非対称マルチタスク学習(AMTL)アルゴリズムであるCAMRLを紹介する。
カリキュラムベースAMTLにおけるワンオフトレーニング順序のカスタマイズによる負の影響を軽減するため、CAMRLは並列シングルタスクRLと非対称マルチタスクRL(MTRL)間のトレーニングモードを切り替える
我々は、Gym-minigrid、Meta-world、Atariビデオゲーム、視覚ベースのPyBulletタスク、RLBenchを含むマルチタスクRLの幅広いベンチマーク実験を行った。
論文 参考訳(メタデータ) (2022-11-07T08:05:13Z) - Meta Reinforcement Learning with Successor Feature Based Context [51.35452583759734]
本稿では,既存のメタRLアルゴリズムと競合する性能を実現するメタRL手法を提案する。
本手法は,複数のタスクに対して同時に高品質なポリシーを学習するだけでなく,短時間のトレーニングで新しいタスクに迅速に適応できる。
論文 参考訳(メタデータ) (2022-07-29T14:52:47Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z) - Active Finite Reward Automaton Inference and Reinforcement Learning
Using Queries and Counterexamples [31.31937554018045]
深部強化学習(RL)法は, 良好な性能を達成するために, 環境探索からの集中的なデータを必要とする。
本稿では,RLエージェントが探索過程を推論し,その将来的な探索を効果的に導くための高レベルの知識を蒸留するフレームワークを提案する。
具体的には、L*学習アルゴリズムを用いて、有限報酬オートマトンという形で高レベルの知識を学習する新しいRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-28T21:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。