Fugu-MT 論文翻訳(概要): UGAE: A Novel Approach to Non-exponential Discounting

論文の概要: UGAE: A Novel Approach to Non-exponential Discounting

arxiv url: http://arxiv.org/abs/2302.05740v1
Date: Sat, 11 Feb 2023 16:41:05 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-14 18:51:53.330655
Title: UGAE: A Novel Approach to Non-exponential Discounting
Title（参考訳）: UGAE:非指数的ディスカウントのための新しいアプローチ
Authors: Ariel Kwiatkowski, Vicky Kalogeiton, Julien Pettr\'e, Marie-Paule Cani
Abstract要約: 人間の行動と整合する非排他的割引法は、しばしば人間のようなエージェントを作成するのに望ましい。任意の割引でGAEの利点値の計算を可能にするユニバーサル一般化アドバンテージ推定(UGAE)を提案する。モンテカルロ法により訓練されたUGAEによる非指数割引エージェントは,モンテカルロ法により訓練された変種よりも優れた性能を示した。
参考スコア（独自算出の注目度）: 9.358303424584902
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The discounting mechanism in Reinforcement Learning determines the relative importance of future and present rewards. While exponential discounting is widely used in practice, non-exponential discounting methods that align with human behavior are often desirable for creating human-like agents. However, non-exponential discounting methods cannot be directly applied in modern on-policy actor-critic algorithms. To address this issue, we propose Universal Generalized Advantage Estimation (UGAE), which allows for the computation of GAE advantage values with arbitrary discounting. Additionally, we introduce Beta-weighted discounting, a continuous interpolation between exponential and hyperbolic discounting, to increase flexibility in choosing a discounting method. To showcase the utility of UGAE, we provide an analysis of the properties of various discounting methods. We also show experimentally that agents with non-exponential discounting trained via UGAE outperform variants trained with Monte Carlo advantage estimation. Through analysis of various discounting methods and experiments, we demonstrate the superior performance of UGAE with Beta-weighted discounting over the Monte Carlo baseline on standard RL benchmarks. UGAE is simple and easily integrated into any advantage-based algorithm as a replacement for the standard recursive GAE.
Abstract（参考訳）: 強化学習における割引メカニズムは、未来と現在の報酬の相対的な重要性を決定する。指数割引は実際には広く使われているが、人間の行動に合わせた非指数割引法は人間のようなエージェントを作るのに望ましい。しかし、非指数割引法は現代のアクター批判アルゴリズムでは直接適用できない。この問題に対処するために、任意の割引でGAEの利点値の計算を可能にするUniversal Generalized Advantage Estimation (UGAE)を提案する。また,指数型ディスカウントと双曲型ディスカウントを連続的に補間するβ重み付きディスカウントを導入し,ディスカウント法を選択する際の柔軟性を高める。 UGAEの有用性を示すために,様々なディスカウント手法の特性の分析を行った。また, モンテカルロの優位性評価により, UGAEによる非指数割引を訓練したエージェントが, 優れた変種であることを示す。種々の割引手法や実験の分析を通じて,標準RLベンチマーク上でのモンテカルロベースラインに対するベータ重み付き割引によるUGAEの優れた性能を示す。 UGAEは、標準的な再帰的GAEの代替として、どんな利点ベースのアルゴリズムにも簡単に統合できる。

関連論文リスト

Generalized Advantage Estimation for Distributional Policy Gradients [3.878500880725885]
一般化アドバンテージ推定(GAE)は、強化学習(RL)の計算複雑性を軽減するために用いられている。本稿では, 最適輸送理論を用いて, 確率分布間の距離と方向のずれを測る, ワッサーシュタイン型指向性計量を導入する手法を提案する。指数関数的に重み付けされた推定を用いて、このワッサーシュタインのような方向測度を用いて分布GAE(DGAE)を導出する。
論文参考訳（メタデータ） (2025-07-23T14:07:56Z)
Koopman-Equivariant Gaussian Processes [39.34668284375732]
線形時間不変応答を持つ力学系に対するガウス過程(GP)のファミリを提案する。この線形性は、予測と表現の不確実性を的確に定量化することができる。実験では、動的システムを学ぶためのカーネルベースの方法と比較して、オンパーで、しばしば予測性能が向上することを示した。
論文参考訳（メタデータ） (2025-02-10T16:35:08Z)
EVAL: EigenVector-based Average-reward Learning [4.8748194765816955]
ニューラルネットワークによる関数近似に基づくアプローチを開発する。エントロピー正則化を使わずに, 平均回帰RL問題を解く方法を示す。
論文参考訳（メタデータ） (2025-01-15T19:00:45Z)
Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models Using Pairwise-Distance Estimators [21.098866735156207]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文参考訳（メタデータ） (2023-08-25T17:13:42Z)
Mimicking Better by Matching the Approximate Action Distribution [48.95048003354255]
そこで我々は,Imitation Learning from Observationsのための新しい,サンプル効率の高いオンライン政治アルゴリズムMAADを紹介する。我々は、専門家のパフォーマンスを達成するためには、かなり少ないインタラクションが必要であり、現在最先端の政治手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-06-16T12:43:47Z)
The FAIRy Tale of Genetic Algorithms [1.0957528713294875]
Findable、Accessible、Interoperable、Reusable(FAIR)のデータ原則を拡張して、アルゴリズムの遺伝的および再使用を可能にしました。我々は,GAの方法論的展開と変種について概説し,適切なソースの再現や発見を困難にしている。この作業は、多数の機械学習アルゴリズム/メソッドに拡張することができる。
論文参考訳（メタデータ） (2023-04-29T11:36:09Z)
LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning [30.4251858001151]
暗黙の報酬関数の2乗ノルム正規化は有効であるが、アルゴリズムの結果の性質に関する理論的解析は提供されない。我々の手法であるLast Squares Inverse Q-Learningは、特に吸収状態の環境において、最先端のアルゴリズムよりも優れていることを示す。
論文参考訳（メタデータ） (2023-03-01T15:46:12Z)
Toward Learning Robust and Invariant Representations with Alignment Regularization and Data Augmentation [76.85274970052762]
本論文はアライメント正則化の選択肢の増大を動機としている。我々は、ロバスト性および不変性の次元に沿って、いくつかの人気のある設計選択のパフォーマンスを評価する。我々はまた、現実的と考える仮定の下で経験的な研究を補完するために、アライメント正則化の挙動を正式に分析する。
論文参考訳（メタデータ） (2022-06-04T04:29:19Z)
High-Dimensional Bayesian Optimisation with Variational Autoencoders and Deep Metric Learning [119.91679702854499]
本研究では,高次元の入力空間上でベイズ最適化を行うためのディープ・メトリック・ラーニングに基づく手法を提案する。このような帰納バイアスを、利用可能なラベル付きデータの1%だけを用いて達成する。実証的な貢献として、実世界の高次元ブラックボックス最適化問題に対する最先端の結果を示す。
論文参考訳（メタデータ） (2021-06-07T13:35:47Z)
Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文参考訳（メタデータ） (2021-05-11T03:38:16Z)
Provably Efficient Reward-Agnostic Navigation with Linear Value Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文参考訳（メタデータ） (2020-08-18T04:34:21Z)
Discount Factor as a Regularizer in Reinforcement Learning [23.56942940879309]
低い割引係数でRLアルゴリズムを適用することは、レギュレータとして機能し、限られたデータ構造の性能を向上させることが知られている。削減割引係数を用いることと、アルゴリズムの損失に明示的な正規化項を追加することの間には、明らかな等価性を示す。等価性によって動機付けられたこの手法を、標準の$L$正規化と比較して実証的に研究する。
論文参考訳（メタデータ） (2020-07-04T08:10:09Z)
Sparse Gaussian Processes Revisited: Bayesian Approaches to Inducing-Variable Approximations [27.43948386608]
変数の誘導に基づく変分推論手法はガウス過程(GP)モデルにおけるスケーラブルな推定のためのエレガントなフレームワークを提供する。この研究において、変分フレームワークにおけるインプットの最大化は最適な性能をもたらすという共通の知恵に挑戦する。
論文参考訳（メタデータ） (2020-03-06T08:53:18Z)
SLEIPNIR: Deterministic and Provably Accurate Feature Expansion for Gaussian Process Regression with Derivatives [86.01677297601624]
本稿では,2次フーリエ特徴に基づく導関数によるGP回帰のスケーリング手法を提案する。我々は、近似されたカーネルと近似された後部の両方に適用される決定論的、非漸近的、指数関数的に高速な崩壊誤差境界を証明した。
論文参考訳（メタデータ） (2020-03-05T14:33:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。