論文の概要: Diverse Projection Ensembles for Distributional Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.07124v1
- Date: Mon, 12 Jun 2023 13:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:20:02.088698
- Title: Diverse Projection Ensembles for Distributional Reinforcement Learning
- Title(参考訳): 分布強化学習のための多様な投影アンサンブル
- Authors: Moritz A. Zanger, Wendelin B\"ohmer, Matthijs T. J. Spaan
- Abstract要約: この研究は、分布的アンサンブルにおけるいくつかの異なる射影と表現の組み合わせを研究する。
我々は、平均1ドル=ワッサーシュタイン距離で測定されるアンサンブル不一致を、深層探査のボーナスとして利用するアルゴリズムを導出する。
- 参考スコア(独自算出の注目度): 6.754994171490016
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In contrast to classical reinforcement learning, distributional reinforcement
learning algorithms aim to learn the distribution of returns rather than their
expected value. Since the nature of the return distribution is generally
unknown a priori or arbitrarily complex, a common approach finds approximations
within a set of representable, parametric distributions. Typically, this
involves a projection of the unconstrained distribution onto the set of
simplified distributions. We argue that this projection step entails a strong
inductive bias when coupled with neural networks and gradient descent, thereby
profoundly impacting the generalization behavior of learned models. In order to
facilitate reliable uncertainty estimation through diversity, this work studies
the combination of several different projections and representations in a
distributional ensemble. We establish theoretical properties of such projection
ensembles and derive an algorithm that uses ensemble disagreement, measured by
the average $1$-Wasserstein distance, as a bonus for deep exploration. We
evaluate our algorithm on the behavior suite benchmark and find that diverse
projection ensembles lead to significant performance improvements over existing
methods on a wide variety of tasks with the most pronounced gains in directed
exploration problems.
- Abstract(参考訳): 古典的強化学習とは対照的に、分布的強化学習アルゴリズムは期待値ではなくリターンの分布を学習することを目的としている。
帰納分布の性質は一般に事前あるいは任意の複素数であるので、共通のアプローチは表現可能なパラメトリック分布の集合内で近似を求める。
通常、これは制限のない分布を単純化された分布の集合に投影する。
このプロジェクションステップは,ニューラルネットワークや勾配降下と結合した場合に強い帰納バイアスを伴い,学習モデルの一般化行動に大きな影響を与える。
本研究は,多様性による確実な不確実性推定を容易にするために,分布アンサンブルにおける複数の異なる投影と表現の組み合わせを研究する。
我々はこのような射影アンサンブルの理論的性質を確立し、平均1ドルワッサーシュタイン距離で測定されたアンサンブル不一致を用いたアルゴリズムを深層探査のボーナスとして導出する。
動作スイートベンチマークのアルゴリズムを評価した結果,多種多様なプロジェクションアンサンブルが,多種多様なタスクにおける既存手法よりも顕著な性能向上をもたらすことが判明した。
関連論文リスト
- Generalizing to any diverse distribution: uniformity, gentle finetuning and rebalancing [55.791818510796645]
我々は,訓練データから大きく逸脱した場合でも,様々なテスト分布によく適応するモデルを開発することを目的としている。
ドメイン適応、ドメイン一般化、ロバスト最適化といった様々なアプローチは、アウト・オブ・ディストリビューションの課題に対処しようと試みている。
我々は、既知のドメイン内の十分に多様なテスト分布にまたがる最悪のケースエラーを考慮することで、より保守的な視点を採用する。
論文 参考訳(メタデータ) (2024-10-08T12:26:48Z) - Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。
複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。
提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文 参考訳(メタデータ) (2023-10-10T14:06:56Z) - Learning Linear Causal Representations from Interventions under General
Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。
これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文 参考訳(メタデータ) (2023-06-04T02:32:12Z) - Exact Subspace Diffusion for Decentralized Multitask Learning [17.592204922442832]
マルチタスク学習のための分散戦略は、よりニュアンスな方法でエージェント間の関係を誘導し、コンセンサスを強制せずにコラボレーションを促進する。
本研究では,ネットワーク上の部分空間制約付きマルチタスク学習のための正確な拡散アルゴリズムの一般化を開発し,その平均二乗偏差の正確な式を導出する。
予測された性能表現の精度を数値的に検証するとともに,近似予測に基づく代替案に対する提案手法の性能向上を検証した。
論文 参考訳(メタデータ) (2023-04-14T19:42:19Z) - Aggregating distribution forecasts from deep ensembles [0.0]
本稿では,ディープアンサンブルのための一般的な量子集約フレームワークを提案する。
深層アンサンブルからの予測分布を組み合わせることで,予測性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:42:51Z) - Learning Structured Gaussians to Approximate Deep Ensembles [10.055143995729415]
本稿では,スパース構造多変量ガウシアンを用いて,高密度画像予測タスクのための閉形式近似器を提案する。
正規分布における予測の不確かさと構造的相関を、サンプリング単独で暗黙的にではなく、明示的に捉える。
単分子深度推定におけるアプローチの利点を実証し,本手法の利点が同等の定量的性能で得られることを示す。
論文 参考訳(メタデータ) (2022-03-29T12:34:43Z) - A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。
ブレグマン最小化の発散の観点から一般的な枠組みを開発する。
我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文 参考訳(メタデータ) (2021-12-07T01:23:20Z) - Greedy Bayesian Posterior Approximation with Deep Ensembles [22.466176036646814]
独立して訓練された目的の集合は、ディープラーニングにおける予測の不確実性を推定するための最先端のアプローチである。
関数空間における任意の問題に対する成分の混合に対して,本手法は部分モジュラーであることを示す。
論文 参考訳(メタデータ) (2021-05-29T11:35:27Z) - A Distributional Analysis of Sampling-Based Reinforcement Learning
Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。
本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文 参考訳(メタデータ) (2020-03-27T05:13:29Z) - A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。
本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文 参考訳(メタデータ) (2020-02-25T18:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。