論文の概要: DIRECT: Learning from Sparse and Shifting Rewards using Discriminative
Reward Co-Training
- arxiv url: http://arxiv.org/abs/2301.07421v1
- Date: Wed, 18 Jan 2023 10:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:17:00.344700
- Title: DIRECT: Learning from Sparse and Shifting Rewards using Discriminative
Reward Co-Training
- Title(参考訳): DIRECT: 差別的リワードによるスパースから学び, シフトするリワード
- Authors: Philipp Altmann, Thomy Phan, Fabian Ritz, Thomas Gabor and Claudia
Linnhoff-Popien
- Abstract要約: 深層強化学習アルゴリズムの拡張として,差別的報酬協調学習を提案する。
差別者ネットワークは、現在の政策によって生成されたトラジェクトリと、以前の政策によって生成された有益なトラジェクトリとを区別するポリシーとを同時に訓練する。
DIRECTはスパース・アンド・シフト・リワード環境において最先端のアルゴリズムより優れていることを示す。
- 参考スコア(独自算出の注目度): 13.866486498822228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose discriminative reward co-training (DIRECT) as an extension to deep
reinforcement learning algorithms. Building upon the concept of self-imitation
learning (SIL), we introduce an imitation buffer to store beneficial
trajectories generated by the policy determined by their return. A
discriminator network is trained concurrently to the policy to distinguish
between trajectories generated by the current policy and beneficial
trajectories generated by previous policies. The discriminator's verdict is
used to construct a reward signal for optimizing the policy. By interpolating
prior experience, DIRECT is able to act as a surrogate, steering policy
optimization towards more valuable regions of the reward landscape thus
learning an optimal policy. Our results show that DIRECT outperforms
state-of-the-art algorithms in sparse- and shifting-reward environments being
able to provide a surrogate reward to the policy and direct the optimization
towards valuable areas.
- Abstract(参考訳): 深層強化学習アルゴリズムの拡張として,識別報酬協調学習(DIRECT)を提案する。
自己模倣学習(sil: self-imitation learning)という概念に基づいて,その帰属によって決定される方針によって生じる有益な軌跡を記憶するための模倣バッファを提案する。
差別者ネットワークは、現在の政策によって生成されたトラジェクトリと、以前の政策によって生成された有益なトラジェクトリとを区別するポリシーとを同時に訓練する。
差別者の評定は、ポリシーを最適化するための報酬信号を構築するために使用される。
事前の経験を補足することで、DIRECTは報酬ランドスケープのより価値の高い領域に向けて政策最適化を補助し、最適な政策を学ぶことができる。
提案手法は,分散環境およびシフト・リワード環境において最先端のアルゴリズムを上回っており,ポリシーに対して代理的な報酬を提供し,価値ある領域に最適化を向けることができる。
関連論文リスト
- PG-Rainbow: Using Distributional Reinforcement Learning in Policy Gradient Methods [0.0]
本稿では,分散強化学習フレームワークとポリシ勾配アルゴリズムを組み合わせた新しいアルゴリズムPG-Rainbowを紹介する。
政策ネットワークに報酬分配情報を統合することで、政策エージェントが強化された能力を取得するという経験的結果を示す。
論文 参考訳(メタデータ) (2024-07-18T04:18:52Z) - Increasing Entropy to Boost Policy Gradient Performance on
Personalization Tasks [0.46040036610482665]
政策勾配を用いて訓練した強化学習エージェントから得られた政策の多様性に及ぼす正規化の影響を考察する。
数値的な証拠は、ポリシーの正則化が、精度を損なうことなく、性能を向上させることを示すために与えられる。
論文 参考訳(メタデータ) (2023-10-09T01:03:05Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Rewards Encoding Environment Dynamics Improves Preference-based
Reinforcement Learning [4.969254618158096]
本研究では、報酬関数(REED)の符号化環境ダイナミクスにより、最先端の嗜好に基づくRLフレームワークに必要な選好ラベルの数を劇的に減らすことを示す。
一部のドメインでは、REEDベースの報酬関数は、基礎的真理報酬に基づいて訓練されたポリシーより優れたポリシーをもたらす。
論文 参考訳(メタデータ) (2022-11-12T00:34:41Z) - Off-policy Reinforcement Learning with Optimistic Exploration and
Distribution Correction [73.77593805292194]
我々は、政治以外のアクター批判的枠組みにおいて、批評家のほぼ上位信頼度を最大化するために、別の調査政策を訓練する。
最近導入されたDICEフレームワークを応用して、非政治アクター犯罪訓練のための分布補正比を学習する。
論文 参考訳(メタデータ) (2021-10-22T22:07:51Z) - Policy Gradient Bayesian Robust Optimization for Imitation Learning [49.881386773269746]
我々は、期待される性能とリスクのバランスをとるために、新しいポリシー勾配スタイルのロバスト最適化手法PG-BROILを導出する。
その結果,PG-BROILはリスクニュートラルからリスク・アバースまでの行動のファミリを創出できる可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-11T16:49:15Z) - Efficient Deep Reinforcement Learning via Adaptive Policy Transfer [50.51637231309424]
強化学習(RL)を促進するための政策伝達フレームワーク(PTF)の提案
我々のフレームワークは、いつ、いつ、どのソースポリシーがターゲットポリシーの再利用に最適なのか、いつそれを終了するかを学習する。
実験結果から,学習過程を著しく加速し,最先端の政策伝達手法を超越していることが判明した。
論文 参考訳(メタデータ) (2020-02-19T07:30:57Z) - Population-Guided Parallel Policy Search for Reinforcement Learning [17.360163137926]
都市外強化学習(RL)の性能向上を図るために,新たな人口誘導型並列学習手法を提案する。
提案手法では,複数の同一学習者が独自の値関数とポリシーを共用し,共通体験再生バッファを共有し,最良のポリシー情報のガイダンスと協調して適切なポリシーを探索する。
論文 参考訳(メタデータ) (2020-01-09T10:13:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。