Fugu-MT 論文翻訳(概要): A nearly Blackwell-optimal policy gradient method

論文の概要: A nearly Blackwell-optimal policy gradient method

arxiv url: http://arxiv.org/abs/2105.13609v1
Date: Fri, 28 May 2021 06:37:02 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-31 20:15:23.148362
Title: A nearly Blackwell-optimal policy gradient method
Title（参考訳）: ほぼブラックウェル最適政策勾配法
Authors: Vektor Dewanto, Marcus Gallagher
Abstract要約: 利得を最適化し,バイアスを緩和する政策勾配法を開発した。対数障壁を用いて対応する二段階最適化を解くアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 4.873362301533825
License: http://creativecommons.org/licenses/by/4.0/
Abstract: For continuing environments, reinforcement learning methods commonly maximize a discounted reward criterion with discount factor close to 1 in order to approximate the steady-state reward (the gain). However, such a criterion only considers the long-run performance, ignoring the transient behaviour. In this work, we develop a policy gradient method that optimizes the gain, then the bias (which indicates the transient performance and is important to capably select from policies with equal gain). We derive expressions that enable sampling for the gradient of the bias, and its preconditioning Fisher matrix. We further propose an algorithm that solves the corresponding bi-level optimization using a logarithmic barrier. Experimental results provide insights into the fundamental mechanisms of our proposal.
Abstract（参考訳）: 継続環境においては、定常的な報酬(利得)を近似するために、割引係数が1に近い割引報酬基準を最大化することが一般的である。しかし、このような基準は、過渡的な振る舞いを無視して、長期にわたるパフォーマンスのみを考慮する。本研究では,利得を最適化する政策勾配法を開発し,そのバイアス(過渡的な性能を示すものであり,利得が等しい政策から選択することが重要である。我々はバイアスの勾配のサンプリングを可能にする表現と、その事前条件であるフィッシャー行列を導出する。さらに,対数障壁を用いて対応する二段階最適化を解くアルゴリズムを提案する。実験結果は,提案の基本的なメカニズムに関する知見を与える。

関連論文リスト

Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [56.92178753201331]
平均逆無限水平POMDPを未知の遷移モデルで扱う。この障壁を克服する斬新でシンプルな推定器を提示する。
論文参考訳（メタデータ） (2025-01-30T22:29:41Z)
Optimal Policy Adaptation under Covariate Shift [15.703626346971182]
目的領域における最適ポリシーを2つのデータセットを用いて学習するための原則的アプローチを提案する。我々は、所定の政策によって引き起こされた報酬に対する識別可能性の仮定を導出する。そして、推定報酬を最適化することで最適な政策を学ぶ。
論文参考訳（メタデータ） (2025-01-14T12:33:02Z)
Dealing with unbounded gradients in stochastic saddle-point optimization [9.983014605039658]
本研究では,凸凹関数のサドル点を求める一階法の性能について検討する。悪名高い課題は、最適化中に勾配が任意に大きくなることだ。本稿では,反復を安定化し,有意義な性能保証を与える,シンプルで効果的な正則化手法を提案する。
論文参考訳（メタデータ） (2024-02-21T16:13:49Z)
Signal Processing Meets SGD: From Momentum to Filter [6.751292200515355]
ディープラーニングでは、勾配降下(SGD)とその運動量に基づく変種が最適化に広く利用されている。本稿では,信号処理レンズを用いて勾配挙動を解析し,更新に影響を与える重要な要因を分離する。本稿では,ワイナーフィルタの原理に基づく新しいSGDF手法を提案する。
論文参考訳（メタデータ） (2023-11-06T01:41:46Z)
High Probability Analysis for Non-Convex Stochastic Optimization with Clipping [13.025261730510847]
勾配クリッピングは重み付きニューラルネットワークを扱う技術である。ほとんどの理論上の保証は、予測外解析のみを提供し、性能のみを提供する。我々の分析は、勾配クリッピングによる最適化アルゴリズムの理論的保証について、比較的完全な図を提供している。
論文参考訳（メタデータ） (2023-07-25T17:36:56Z)
Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-12-03T01:54:55Z)
Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。 IRLの多くのアルゴリズムは本質的にネスト構造を持つ。我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-10-04T17:13:45Z)
Bag of Tricks for Natural Policy Gradient Reinforcement Learning [87.54231228860495]
我々は,自然政策勾配強化学習のパフォーマンスに影響を及ぼす戦略を実装し,比較した。提案されたパフォーマンス最適化戦略の収集は、MuJuCoコントロールベンチマークにおいて、結果を86%から181%改善することができる。
論文参考訳（メタデータ） (2022-01-22T17:44:19Z)
Understanding the Effect of Stochasticity in Policy Optimization [86.7574122154668]
最適化手法の優位性は、正確な勾配が用いられるかどうかに大きく依存することを示す。次に,政策最適化におけるコミット率の概念を紹介する。第三に、外部のオラクル情報がない場合には、収束を加速するために幾何を利用することと、最適性をほぼ確実に達成することとの間に本質的にトレードオフがあることが示される。
論文参考訳（メタデータ） (2021-10-29T06:35:44Z)
High Probability Complexity Bounds for Non-Smooth Stochastic Optimization with Heavy-Tailed Noise [51.31435087414348]
アルゴリズムが高い確率で小さな客観的残差を与えることを理論的に保証することが不可欠である。非滑らか凸最適化の既存の方法は、信頼度に依存した複雑性境界を持つ。そこで我々は,勾配クリッピングを伴う2つの手法に対して,新たなステップサイズルールを提案する。
論文参考訳（メタデータ） (2021-06-10T17:54:21Z)
On the Convergence and Sample Efficiency of Variance-Reduced Policy Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文参考訳（メタデータ） (2021-02-17T07:06:19Z)
Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文参考訳（メタデータ） (2020-12-21T17:29:58Z)
On the Convergence of Adaptive Gradient Methods for Nonconvex Optimization [80.03647903934723]
我々は、勾配収束法を期待する適応勾配法を証明した。解析では、非理解勾配境界の最適化において、より適応的な勾配法に光を当てた。
論文参考訳（メタデータ） (2018-08-16T20:25:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。