論文の概要: Conjugated Discrete Distributions for Distributional Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2112.07424v1
- Date: Tue, 14 Dec 2021 14:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 14:21:37.495392
- Title: Conjugated Discrete Distributions for Distributional Reinforcement
Learning
- Title(参考訳): 分布強化学習のための共役離散分布
- Authors: Bj\"orn Lindenberg, Jonas Nordqvist, Karl-Olof Lindahl
- Abstract要約: 最も成功した方法の1つは、非決定論的プロセスがある場合、最適なポリシーを得られないことを示します。
我々は、分散強化学習が、この状況を完全に改善するのに役立つと論じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In this work we continue to build upon recent advances in reinforcement
learning for finite Markov processes. A common approach among previous existing
algorithms, both single-actor and distributed, is to either clip rewards or to
apply a transformation method on Q-functions to handle a large variety of
magnitudes in real discounted returns. We theoretically show that one of the
most successful methods may not yield an optimal policy if we have a
non-deterministic process. As a solution, we argue that distributional
reinforcement learning lends itself to remedy this situation completely. By the
introduction of a conjugated distributional operator we may handle a large
class of transformations for real returns with guaranteed theoretical
convergence. We propose an approximating single-actor algorithm based on this
operator that trains agents directly on unaltered rewards using a proper
distributional metric given by the Cram\'er distance. To evaluate its
performance in a stochastic setting we train agents on a suite of 55 Atari 2600
games using sticky-actions and obtain state-of-the-art performance compared to
other well-known algorithms in the Dopamine framework.
- Abstract(参考訳): この研究は、有限マルコフ過程に対する強化学習の最近の進歩に基づき続けている。
従来のアルゴリズム(シングルアクターと分散の両方)の一般的なアプローチは、報酬をクリップするか、Q関数に変換法を適用して実割引リターンで様々な大きさを扱うことである。
理論的には、最も成功した方法の1つは、非決定論的プロセスを持つ場合、最適方針を導くことができない。
解決策として、分散強化学習は、この状況を完全に改善するのに役立つと論じる。
共役分布作用素の導入により、理論収束が保証された実リターンに対する大きな変換クラスを扱うことができる。
本稿では,この演算子に基づいて,Cram\'er 距離によって与えられる適切な分布距離を用いて,未調整報酬に直接エージェントを訓練する。
確率的環境での性能を評価するため,55のAtari 2600のゲームに対して,ステディアクションを用いてエージェントを訓練し,ドパミンフレームワークの他のよく知られたアルゴリズムと比較して最先端のパフォーマンスを得る。
関連論文リスト
- Non-Adversarial Inverse Reinforcement Learning via Successor Feature Matching [23.600285251963395]
逆強化学習(IRL)では、エージェントは環境との相互作用を通じて専門家のデモンストレーションを再現しようとする。
伝統的にIRLは、敵が報酬モデルを探し出し、学習者が繰り返しRL手順で報酬を最適化する対戦ゲームとして扱われる。
直接ポリシー最適化によるIRLに対する新しいアプローチを提案し、リターンの線形因数分解を後継特徴の内積および報酬ベクトルとして活用する。
論文 参考訳(メタデータ) (2024-11-11T14:05:50Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Federated Learning for Heterogeneous Bandits with Unobserved Contexts [0.0]
我々は、未知のコンテキストを持つ多腕コンテキスト包帯のフェデレーション問題について検討する。
線形パラメタライズされた報酬関数に対して,除去に基づくアルゴリズムを提案し,後悔の束縛を証明した。
論文 参考訳(メタデータ) (2023-03-29T22:06:24Z) - Cooperative Distribution Alignment via JSD Upper Bound [7.071749623370137]
教師なし分布アライメントは、2つ以上のソース分布を共有整列分布にマッピングする変換を推定する。
このタスクには、生成モデリング、教師なしドメイン適応、社会的に認識された学習など、多くの応用がある。
我々は,従来のフローベースアプローチを,単一の非逆数フレームワークで統一し,一般化することを提案する。
論文 参考訳(メタデータ) (2022-07-05T20:09:03Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - Distributional Reinforcement Learning via Moment Matching [54.16108052278444]
ニューラルネットワークを用いて各戻り分布から統計量の有限集合を学習する手法を定式化する。
我々の手法は、戻り分布とベルマン目標の間のモーメントの全ての順序を暗黙的に一致させるものとして解釈できる。
Atariゲームスイートの実験により,本手法は標準分布RLベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2020-07-24T05:18:17Z) - Beyond the Mean-Field: Structured Deep Gaussian Processes Improve the
Predictive Uncertainties [12.068153197381575]
高速収束を達成しつつ、潜在過程間の共分散を維持できる新しい変分族を提案する。
新しいアプローチの効率的な実装を提供し、それをいくつかのベンチマークデータセットに適用します。
優れた結果をもたらし、最先端の代替品よりも精度とキャリブレーションされた不確実性推定とのバランスが良くなる。
論文 参考訳(メタデータ) (2020-05-22T11:10:59Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。