論文の概要: Foundations of Multivariate Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2409.00328v1
- Date: Sat, 31 Aug 2024 02:10:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 15:37:00.750877
- Title: Foundations of Multivariate Distributional Reinforcement Learning
- Title(参考訳): 多変量分布強化学習の基礎
- Authors: Harley Wiltzer, Jesse Farebrother, Arthur Gretton, Mark Rowland,
- Abstract要約: 本研究は,多変量分布動的計画法と時間差分学習を実証的に収束させる,最初のオラクルフリーで計算可能なアルゴリズムを導入する。
驚いたことに、報酬次元が1ドルより大きい場合、分類的TD学習の標準解析は失敗し、これは質量1ドルの符号付き測度空間に新しい射影で解決する。
- 参考スコア(独自算出の注目度): 24.808129930793882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In reinforcement learning (RL), the consideration of multivariate reward signals has led to fundamental advancements in multi-objective decision-making, transfer learning, and representation learning. This work introduces the first oracle-free and computationally-tractable algorithms for provably convergent multivariate distributional dynamic programming and temporal difference learning. Our convergence rates match the familiar rates in the scalar reward setting, and additionally provide new insights into the fidelity of approximate return distribution representations as a function of the reward dimension. Surprisingly, when the reward dimension is larger than $1$, we show that standard analysis of categorical TD learning fails, which we resolve with a novel projection onto the space of mass-$1$ signed measures. Finally, with the aid of our technical results and simulations, we identify tradeoffs between distribution representations that influence the performance of multivariate distributional RL in practice.
- Abstract(参考訳): 強化学習(RL)において、多変量報酬信号の考慮は、多目的意思決定、伝達学習、表現学習の根本的な進歩につながった。
この研究は、多変量分布動的計画法と時間差分学習を実証的に収束させる最初のオラクルフリーで計算可能なアルゴリズムを導入している。
我々の収束速度はスカラー報酬設定の精通率と一致し、さらに報酬次元の関数としての近似回帰分布表現の忠実性に関する新たな洞察を提供する。
驚いたことに、報酬次元が1ドルより大きい場合、分類的TD学習の標準解析は失敗し、これは質量1$の符号付き測度の空間に新しい射影で解決する。
最後に, 実運用における多変量分布RLの性能に影響を及ぼす分布表現間のトレードオフを, 技術的結果とシミュレーションの助けを借りて同定する。
関連論文リスト
- A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Distributional Reinforcement Learning with Dual Expectile-Quantile Regression [51.87411935256015]
分布RLに対する量子レグレッションアプローチは、任意の戻り分布を柔軟かつ効果的に学習する方法を提供する。
我々は,分布保証が消えることを示し,推定分布が急速に崩壊して平均推定値が崩壊することを実証的に観察する。
提案手法は,$L$の学習効率を生かして,返却分布の予測値と量子化値とを協調的に学習し,返却分布の完全な分布を推定し,効率的な学習を可能にするものである。
論文 参考訳(メタデータ) (2023-05-26T12:30:05Z) - Exact Subspace Diffusion for Decentralized Multitask Learning [17.592204922442832]
マルチタスク学習のための分散戦略は、よりニュアンスな方法でエージェント間の関係を誘導し、コンセンサスを強制せずにコラボレーションを促進する。
本研究では,ネットワーク上の部分空間制約付きマルチタスク学習のための正確な拡散アルゴリズムの一般化を開発し,その平均二乗偏差の正確な式を導出する。
予測された性能表現の精度を数値的に検証するとともに,近似予測に基づく代替案に対する提案手法の性能向上を検証した。
論文 参考訳(メタデータ) (2023-04-14T19:42:19Z) - A Unifying Perspective on Multi-Calibration: Game Dynamics for
Multi-Objective Learning [63.20009081099896]
マルチキャリブレーション予測器の設計と解析のための統一フレームワークを提供する。
ゲームダイナミクスとの接続を利用して,多様なマルチ校正学習問題に対する最先端の保証を実現する。
論文 参考訳(メタデータ) (2023-02-21T18:24:17Z) - Federated Representation Learning via Maximal Coding Rate Reduction [109.26332878050374]
本稿では,複数のクライアントに分散したデータセットから低次元表現を学習する手法を提案する。
提案手法はFLOWと呼ばれ, MCR2を選択の対象とし, その結果, クラス間判別とクラス内圧縮の両方が可能な表現が得られた。
論文 参考訳(メタデータ) (2022-10-01T15:43:51Z) - Normality-Guided Distributional Reinforcement Learning for Continuous
Control [16.324313304691426]
平均戻り値の予測モデル、すなわち値関数の学習は多くの強化学習アルゴリズムにおいて重要な役割を果たす。
本研究では,複数の連続制御タスクにおける値分布について検討し,学習した値分布が正規に非常に近いことを示す。
本稿では,標準値関数に存在しない値分布の構造的特性によって測定された正当性に基づくポリシー更新戦略を提案する。
論文 参考訳(メタデータ) (2022-08-28T02:52:10Z) - Exploration with Multi-Sample Target Values for Distributional
Reinforcement Learning [20.680417111485305]
分散RLのマルチサンプル目標値(MTV)を,単一サンプル目標値推定の原則的代替として導入する。
改良された分布推定は UCB ベースの探査に寄与する。
我々は,一連の連続制御タスクに対するアプローチを評価し,ヒューマノイド制御のような難易度の高いタスクに対して,最先端のモデルフリー性能を示す。
論文 参考訳(メタデータ) (2022-02-06T03:27:05Z) - Distributional Reinforcement Learning for Multi-Dimensional Reward
Functions [91.88969237680669]
多次元分布DQN(MD3QN)を導入し、複数の報酬源からの共振分布をモデル化する。
関節分布モデリングの副産物として、MD3QNは各報酬源に対するリターンのランダム性を捉えることができる。
実験では,リッチな相関型報酬関数を持つ環境下での連立戻り分布を精度良くモデル化した。
論文 参考訳(メタデータ) (2021-10-26T11:24:23Z) - Byzantine Resilient Distributed Multi-Task Learning [6.850757447639822]
タスク間の関連性を学習するための分散アルゴリズムは、ビザンティンエージェントの存在下では回復力がないことを示す。
ビザンチンレジリエントな分散マルチタスク学習のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-25T04:32:52Z) - When Relation Networks meet GANs: Relation GANs with Triplet Loss [110.7572918636599]
GAN(Generative Adversarial Network)の学習安定性はいまだに悩みの種である
本稿では,判別器のための関係ネットワークアーキテクチャについて検討し,より優れた一般化と安定性を実現する三重項損失を設計する。
ベンチマークデータセットの実験により、提案された関係判別器と新たな損失は、可変視覚タスクに大幅な改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-02-24T11:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。