論文の概要: Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions
- arxiv url: http://arxiv.org/abs/2110.13578v1
- Date: Tue, 26 Oct 2021 11:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-27 15:19:25.908133
- Title: Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions
- Title(参考訳): 多次元リワード関数に対する分布強化学習
- Authors: Pushi Zhang, Xiaoyu Chen, Li Zhao, Wei Xiong, Tao Qin, Tie-Yan Liu
- Abstract要約: 多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
- 参考スコア(独自算出の注目度): 91.88969237680669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing trend for value-based reinforcement learning (RL) algorithms is to
capture more information than scalar value functions in the value network. One
of the most well-known methods in this branch is distributional RL, which
models return distribution instead of scalar value. In another line of work,
hybrid reward architectures (HRA) in RL have studied to model source-specific
value functions for each source of reward, which is also shown to be beneficial
in performance. To fully inherit the benefits of distributional RL and hybrid
reward architectures, we introduce Multi-Dimensional Distributional DQN
(MD3QN), which extends distributional RL to model the joint return distribution
from multiple reward sources. As a by-product of joint distribution modeling,
MD3QN can capture not only the randomness in returns for each source of reward,
but also the rich reward correlation between the randomness of different
sources. We prove the convergence for the joint distributional Bellman operator
and build our empirical algorithm by minimizing the Maximum Mean Discrepancy
between joint return distribution and its Bellman target. In experiments, our
method accurately models the joint return distribution in environments with
richly correlated reward functions, and outperforms previous RL methods
utilizing multi-dimensional reward functions in the control setting.
- Abstract(参考訳): 値ベース強化学習(RL)アルゴリズムのトレンドは、値ネットワーク内のスカラー値関数よりも多くの情報を取得することである。
このブランチで最もよく知られている方法の1つは分布RLであり、スカラー値の代わりに分布をモデルとして返却する。
別の研究で、RLのハイブリッド報酬アーキテクチャ(HRA)は、各報酬源のソース固有値関数をモデル化し、性能にも有益であることを示した。
分散RLとハイブリッド報酬アーキテクチャの利点を完全に継承するために,分散RLを拡張した多次元分散DQN(MD3QN)を導入する。
共同分布モデリングの副産物として、MD3QNは報酬源ごとのリターンのランダム性だけでなく、異なるソースのランダム性の間のリッチな報酬相関も捉えることができる。
結合分布演算子の収束性を証明し、結合戻り分布とベルマン目標との最大平均差を最小化して経験的アルゴリズムを構築する。
実験では,多次元報酬関数を用いた前回のrl法と比較して,報奨関数が豊富な環境下での合同リターン分布を正確にモデル化した。
関連論文リスト
- Quantile Regression for Distributional Reward Models in RLHF [1.8130068086063336]
我々は,1つのスカラー値の代わりに報酬よりも分布を学習する,報酬モデリングの新しいアプローチであるQuantile Reward Models(QRMs)を紹介する。
提案手法は量子レグレッションを用いて、選好よりも完全な、潜在的に多モード分布を推定し、より強力でニュアンスな選好表現を提供する。
実験の結果,QRMはRewardBench上での従来の点推定モデルよりも優れていた。
論文 参考訳(メタデータ) (2024-09-16T10:54:04Z) - Improving Reinforcement Learning from Human Feedback with Efficient Reward Model Ensemble [67.4269821365504]
人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback, RLHF)は、大きな言語モデルと人間の価値を整合させる手法として広く採用されている。
しかし、RLHFは限られた量の人間の嗜好データで訓練された報酬モデルに依存している。
報奨モデルによりより正確な予測が可能となる報奨アンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-01-30T00:17:37Z) - Noise Distribution Decomposition based Multi-Agent Distributional Reinforcement Learning [15.82785057592436]
マルチエージェント強化学習(MARL)は、インテリジェントエージェント間の干渉によるノイズの影響を受けやすい。
本稿では,グローバル共有雑音報酬を近似することで,分解に基づく新しいマルチエージェント分布RL法を提案する。
また,提案手法の有効性を,雑音を考慮した広範囲なシミュレーション実験により検証した。
論文 参考訳(メタデータ) (2023-12-12T07:24:15Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Policy Evaluation in Distributional LQR [70.63903506291383]
ランダムリターンの分布を閉形式で表現する。
この分布は有限個の確率変数で近似できることを示す。
近似回帰分布を用いて,リスク・アバースLQRに対するゼロ階ポリシー勾配アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-23T20:27:40Z) - How Does Return Distribution in Distributional Reinforcement Learning Help Optimization? [10.149055921090572]
ニューラルネットワークZ-Iteration(Neural FZI)フレームワークにおける分布RLの最適化の利点について検討する。
その結果, 分布RLは良好な滑らかさ特性を有し, 安定な勾配を享受できることが示唆された。
本研究は,分布RLアルゴリズムの帰属分布が最適化にどう役立つかを明らかにする。
論文 参考訳(メタデータ) (2022-09-29T02:18:31Z) - DQMIX: A Distributional Perspective on Multi-Agent Reinforcement
Learning [122.47938710284784]
協調的マルチエージェントタスクでは、エージェントのチームがアクションを取り、報酬を受け取り、次の状態を観察し、環境と共同で対話する。
既存の価値に基づく多エージェント強化学習手法のほとんどは、個々のQ値とグローバルQ値の期待をモデル化するのみである。
論文 参考訳(メタデータ) (2022-02-21T11:28:00Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Bayesian Distributional Policy Gradients [2.28438857884398]
分布強化学習は、報酬対移動の確率分布全体を維持する。
返品だ
Bayesian Distributional Policy Gradients (BDPG) は、共同コントラスト学習における逆行訓練を用いて、リターンから変動後部を推定する。
論文 参考訳(メタデータ) (2021-03-20T23:42:50Z) - Information Directed Reward Learning for Reinforcement Learning [64.33774245655401]
我々は、標準rlアルゴリズムが可能な限り少数の専門家クエリで高い期待値を達成することができる報酬関数のモデルを学ぶ。
特定のタイプのクエリ用に設計された以前のアクティブな報酬学習方法とは対照的に、IDRLは自然に異なるクエリタイプに対応します。
我々は,複数の環境における広範囲な評価と,異なるタイプのクエリでこの結果を支持する。
論文 参考訳(メタデータ) (2021-02-24T18:46:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。