Fugu-MT 論文翻訳(概要): Diverse Projection Ensembles for Distributional Reinforcement Learning

論文の概要: Diverse Projection Ensembles for Distributional Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.07124v2
Date: Fri, 14 Mar 2025 14:26:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:28.785842
Title: Diverse Projection Ensembles for Distributional Reinforcement Learning
Title（参考訳）: 分散強化学習のための多元射影アンサンブル
Authors: Moritz A. Zanger, Wendelin Böhmer, Matthijs T. J. Spaan,
Abstract要約: 分布強化学習アルゴリズムは、期待値ではなく、リターンの分布を学習することを目的としている。分布アンサンブルにおける複数の異なる射影と表現の組み合わせについて検討する。我々は,平均1-ワッサーシュタイン距離で測定されたアンサンブル不一致を,深層探査のボーナスとして利用するアルゴリズムを導出する。
参考スコア（独自算出の注目度）: 6.144680854063937
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In contrast to classical reinforcement learning (RL), distributional RL algorithms aim to learn the distribution of returns rather than their expected value. Since the nature of the return distribution is generally unknown a priori or arbitrarily complex, a common approach finds approximations within a set of representable, parametric distributions. Typically, this involves a projection of the unconstrained distribution onto the set of simplified distributions. We argue that this projection step entails a strong inductive bias when coupled with neural networks and gradient descent, thereby profoundly impacting the generalization behavior of learned models. In order to facilitate reliable uncertainty estimation through diversity, we study the combination of several different projections and representations in a distributional ensemble. We establish theoretical properties of such projection ensembles and derive an algorithm that uses ensemble disagreement, measured by the average 1-Wasserstein distance, as a bonus for deep exploration. We evaluate our algorithm on the behavior suite benchmark and VizDoom and find that diverse projection ensembles lead to significant performance improvements over existing methods on a variety of tasks with the most pronounced gains in directed exploration problems.
Abstract（参考訳）: 古典的強化学習(RL)とは対照的に、分布的RLアルゴリズムは期待値ではなくリターンの分布を学習することを目的としている。帰納分布の性質は一般に事前あるいは任意の複素数であるので、共通のアプローチは表現可能なパラメトリック分布の集合内で近似を求める。典型的には、これは制限のない分布を単純化された分布の集合に投影することを含む。このプロジェクションステップは、ニューラルネットワークや勾配降下と組み合わせた場合、強い帰納バイアスを伴い、学習したモデルの一般化挙動に大きな影響を及ぼすと論じる。多様性による確実な不確実性推定を容易にするため,分布アンサンブルにおける複数の異なる投影と表現の組み合わせについて検討する。我々はこのような射影アンサンブルの理論的性質を確立し、平均1-ワッサーシュタイン距離で測定されたアンサンブル不一致を用いたアルゴリズムを深層探査のボーナスとして導出する。動作スイートベンチマークとVizDoomでアルゴリズムを評価した結果,多様なプロジェクションアンサンブルが,様々なタスクにおける既存手法よりも顕著な性能向上をもたらすことが判明した。

関連論文リスト

Theory on Score-Mismatched Diffusion Models and Zero-Shot Conditional Samplers [49.97755400231656]
一般のスコアミスマッチ拡散サンプリング器に対する明示的な次元依存性を持つ最初の性能保証を示す。その結果, スコアミスマッチは, 目標分布とサンプリング分布の分布バイアスとなり, 目標分布とトレーニング分布の累積ミスマッチに比例することがわかった。この結果は、測定ノイズに関係なく、任意の条件モデルに対するゼロショット条件付きサンプリングに直接適用することができる。
論文参考訳（メタデータ） (2024-10-17T16:42:12Z)
Generalizing to any diverse distribution: uniformity, gentle finetuning and rebalancing [55.791818510796645]
我々は,訓練データから大きく逸脱した場合でも,様々なテスト分布によく適応するモデルを開発することを目的としている。ドメイン適応、ドメイン一般化、ロバスト最適化といった様々なアプローチは、アウト・オブ・ディストリビューションの課題に対処しようと試みている。我々は、既知のドメイン内の十分に多様なテスト分布にまたがる最悪のケースエラーを考慮することで、より保守的な視点を採用する。
論文参考訳（メタデータ） (2024-10-08T12:26:48Z)
Distributed Markov Chain Monte Carlo Sampling based on the Alternating Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文参考訳（メタデータ） (2024-01-29T02:08:40Z)
Implicit Variational Inference for High-Dimensional Posteriors [7.924706533725115]
変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。複雑な多重モーダルおよび相関後部を近似するのに適した暗黙分布を特定するニューラルサンプリング手法を提案する。提案手法では,ニューラルネットワークを局所的に線形化することにより,暗黙分布を用いた近似推論の新たなバウンダリを導入する。
論文参考訳（メタデータ） (2023-10-10T14:06:56Z)
Learning Linear Causal Representations from Interventions under General Nonlinear Mixing [52.66151568785088]
介入対象にアクセスできることなく、未知の単一ノード介入を考慮し、強い識別可能性を示す。これは、ディープニューラルネットワークの埋め込みに対する非ペアの介入による因果識別性の最初の例である。
論文参考訳（メタデータ） (2023-06-04T02:32:12Z)
Exact Subspace Diffusion for Decentralized Multitask Learning [17.592204922442832]
マルチタスク学習のための分散戦略は、よりニュアンスな方法でエージェント間の関係を誘導し、コンセンサスを強制せずにコラボレーションを促進する。本研究では,ネットワーク上の部分空間制約付きマルチタスク学習のための正確な拡散アルゴリズムの一般化を開発し,その平均二乗偏差の正確な式を導出する。予測された性能表現の精度を数値的に検証するとともに,近似予測に基づく代替案に対する提案手法の性能向上を検証した。
論文参考訳（メタデータ） (2023-04-14T19:42:19Z)
Aggregating distribution forecasts from deep ensembles [0.0]
本稿では,ディープアンサンブルのための一般的な量子集約フレームワークを提案する。深層アンサンブルからの予測分布を組み合わせることで,予測性能を大幅に向上できることを示す。
論文参考訳（メタデータ） (2022-04-05T15:42:51Z)
Learning Structured Gaussians to Approximate Deep Ensembles [10.055143995729415]
本稿では,スパース構造多変量ガウシアンを用いて,高密度画像予測タスクのための閉形式近似器を提案する。正規分布における予測の不確かさと構造的相関を、サンプリング単独で暗黙的にではなく、明示的に捉える。単分子深度推定におけるアプローチの利点を実証し,本手法の利点が同等の定量的性能で得られることを示す。
論文参考訳（メタデータ） (2022-03-29T12:34:43Z)
Robust Estimation for Nonparametric Families via Generative Adversarial Networks [92.64483100338724]
我々は,高次元ロバストな統計問題を解くためにGAN(Generative Adversarial Networks)を設計するためのフレームワークを提供する。我々の研究は、これらをロバスト平均推定、第二モーメント推定、ロバスト線形回帰に拡張する。技術面では、提案したGAN損失は、スムーズで一般化されたコルモゴロフ-スミルノフ距離と見なすことができる。
論文参考訳（メタデータ） (2022-02-02T20:11:33Z)
A Unified Framework for Multi-distribution Density Ratio Estimation [101.67420298343512]
バイナリ密度比推定(DRE)は多くの最先端の機械学習アルゴリズムの基礎を提供する。ブレグマン最小化の発散の観点から一般的な枠組みを開発する。我々のフレームワークはバイナリDREでそれらのフレームワークを厳格に一般化する手法に導かれることを示す。
論文参考訳（メタデータ） (2021-12-07T01:23:20Z)
Distributional Reinforcement Learning with Unconstrained Monotonic Neural Networks [7.907645828535088]
本稿では,ランダムリターン分布の異なる表現を学習するための方法論を提案する。制約のない単調深Q-network (UMDQN) と呼ばれる新しい分布RLアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-06T20:03:50Z)
Greedy Bayesian Posterior Approximation with Deep Ensembles [22.466176036646814]
独立して訓練された目的の集合は、ディープラーニングにおける予測の不確実性を推定するための最先端のアプローチである。関数空間における任意の問題に対する成分の混合に対して,本手法は部分モジュラーであることを示す。
論文参考訳（メタデータ） (2021-05-29T11:35:27Z)
A Distributional Analysis of Sampling-Based Reinforcement Learning Algorithms [67.67377846416106]
定常ステップサイズに対する強化学習アルゴリズムの理論解析に対する分布的アプローチを提案する。本稿では,TD($lambda$)や$Q$-Learningのような値ベースの手法が,関数の分布空間で制約のある更新ルールを持つことを示す。
論文参考訳（メタデータ） (2020-03-27T05:13:29Z)
A General Method for Robust Learning from Batches [56.59844655107251]
本稿では,バッチから頑健な学習を行う一般的なフレームワークについて考察し,連続ドメインを含む任意の領域に対する分類と分布推定の限界について考察する。本手法は,一括分節分類,一括分節,単調,対数凹,ガウス混合分布推定のための,最初の頑健な計算効率の学習アルゴリズムを導出する。
論文参考訳（メタデータ） (2020-02-25T18:53:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。