論文の概要: UGAE: A Novel Approach to Non-exponential Discounting
- arxiv url: http://arxiv.org/abs/2302.05740v1
- Date: Sat, 11 Feb 2023 16:41:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 18:51:53.330655
- Title: UGAE: A Novel Approach to Non-exponential Discounting
- Title(参考訳): UGAE:非指数的ディスカウントのための新しいアプローチ
- Authors: Ariel Kwiatkowski, Vicky Kalogeiton, Julien Pettr\'e, Marie-Paule Cani
- Abstract要約: 人間の行動と整合する非排他的割引法は、しばしば人間のようなエージェントを作成するのに望ましい。
任意の割引でGAEの利点値の計算を可能にするユニバーサル一般化アドバンテージ推定(UGAE)を提案する。
モンテカルロ法により訓練されたUGAEによる非指数割引エージェントは,モンテカルロ法により訓練された変種よりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 9.358303424584902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The discounting mechanism in Reinforcement Learning determines the relative
importance of future and present rewards. While exponential discounting is
widely used in practice, non-exponential discounting methods that align with
human behavior are often desirable for creating human-like agents. However,
non-exponential discounting methods cannot be directly applied in modern
on-policy actor-critic algorithms. To address this issue, we propose Universal
Generalized Advantage Estimation (UGAE), which allows for the computation of
GAE advantage values with arbitrary discounting. Additionally, we introduce
Beta-weighted discounting, a continuous interpolation between exponential and
hyperbolic discounting, to increase flexibility in choosing a discounting
method. To showcase the utility of UGAE, we provide an analysis of the
properties of various discounting methods. We also show experimentally that
agents with non-exponential discounting trained via UGAE outperform variants
trained with Monte Carlo advantage estimation. Through analysis of various
discounting methods and experiments, we demonstrate the superior performance of
UGAE with Beta-weighted discounting over the Monte Carlo baseline on standard
RL benchmarks. UGAE is simple and easily integrated into any advantage-based
algorithm as a replacement for the standard recursive GAE.
- Abstract(参考訳): 強化学習における割引メカニズムは、未来と現在の報酬の相対的な重要性を決定する。
指数割引は実際には広く使われているが、人間の行動に合わせた非指数割引法は人間のようなエージェントを作るのに望ましい。
しかし、非指数割引法は現代のアクター批判アルゴリズムでは直接適用できない。
この問題に対処するために、任意の割引でGAEの利点値の計算を可能にするUniversal Generalized Advantage Estimation (UGAE)を提案する。
また,指数型ディスカウントと双曲型ディスカウントを連続的に補間するβ重み付きディスカウントを導入し,ディスカウント法を選択する際の柔軟性を高める。
UGAEの有用性を示すために,様々なディスカウント手法の特性の分析を行った。
また, モンテカルロの優位性評価により, UGAEによる非指数割引を訓練したエージェントが, 優れた変種であることを示す。
種々の割引手法や実験の分析を通じて,標準RLベンチマーク上でのモンテカルロベースラインに対するベータ重み付き割引によるUGAEの優れた性能を示す。
UGAEは、標準的な再帰的GAEの代替として、どんな利点ベースのアルゴリズムにも簡単に統合できる。
関連論文リスト
- Koopman-Equivariant Gaussian Processes [39.34668284375732]
線形時間不変応答を持つ力学系に対するガウス過程(GP)のファミリを提案する。
この線形性は、予測と表現の不確実性を的確に定量化することができる。
実験では、動的システムを学ぶためのカーネルベースの方法と比較して、オンパーで、しばしば予測性能が向上することを示した。
論文 参考訳(メタデータ) (2025-02-10T16:35:08Z) - EVAL: EigenVector-based Average-reward Learning [4.8748194765816955]
ニューラルネットワークによる関数近似に基づくアプローチを開発する。
エントロピー正則化を使わずに, 平均回帰RL問題を解く方法を示す。
論文 参考訳(メタデータ) (2025-01-15T19:00:45Z) - Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models
Using Pairwise-Distance Estimators [21.098866735156207]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。
サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。
我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文 参考訳(メタデータ) (2023-08-25T17:13:42Z) - Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。
我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T12:43:47Z) - Toward Learning Robust and Invariant Representations with Alignment
Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。
我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。
我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文 参考訳(メタデータ) (2022-06-04T04:29:19Z) - High-Dimensional Bayesian Optimisation with Variational Autoencoders and
Deep Metric Learning [119.91679702854499]
本研究では,高次元の入力空間上でベイズ最適化を行うためのディープ・メトリック・ラーニングに基づく手法を提案する。
このような帰納バイアスを、利用可能なラベル付きデータの1%だけを用いて達成する。
実証的な貢献として、実世界の高次元ブラックボックス最適化問題に対する最先端の結果を示す。
論文 参考訳(メタデータ) (2021-06-07T13:35:47Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Discount Factor as a Regularizer in Reinforcement Learning [23.56942940879309]
低い割引係数でRLアルゴリズムを適用することは、レギュレータとして機能し、限られたデータ構造の性能を向上させることが知られている。
削減割引係数を用いることと、アルゴリズムの損失に明示的な正規化項を追加することの間には、明らかな等価性を示す。
等価性によって動機付けられたこの手法を、標準の$L$正規化と比較して実証的に研究する。
論文 参考訳(メタデータ) (2020-07-04T08:10:09Z) - Sparse Gaussian Processes Revisited: Bayesian Approaches to
Inducing-Variable Approximations [27.43948386608]
変数の誘導に基づく変分推論手法はガウス過程(GP)モデルにおけるスケーラブルな推定のためのエレガントなフレームワークを提供する。
この研究において、変分フレームワークにおけるインプットの最大化は最適な性能をもたらすという共通の知恵に挑戦する。
論文 参考訳(メタデータ) (2020-03-06T08:53:18Z) - SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for
Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。
我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文 参考訳(メタデータ) (2020-03-05T14:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。