Fugu-MT 論文翻訳(概要): Taylor Expansion Policy Optimization

論文の概要: Taylor Expansion Policy Optimization

arxiv url: http://arxiv.org/abs/2003.06259v1
Date: Fri, 13 Mar 2020 13:14:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 01:15:17.458510
Title: Taylor Expansion Policy Optimization
Title（参考訳）: Taylor 拡張ポリシー最適化
Authors: Yunhao Tang, Michal Valko, R\'emi Munos
Abstract要約: テイラーの拡張は、政治以外の評価に密接に関係していることが示される。この新たな定式化は、いくつかの最先端分散アルゴリズムの性能を改善する修正を含む。
参考スコア（独自算出の注目度）: 55.204663986972875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this work, we investigate the application of Taylor expansions in reinforcement learning. In particular, we propose Taylor expansion policy optimization, a policy optimization formalism that generalizes prior work (e.g., TRPO) as a first-order special case. We also show that Taylor expansions intimately relate to off-policy evaluation. Finally, we show that this new formulation entails modifications which improve the performance of several state-of-the-art distributed algorithms.
Abstract（参考訳）: 本研究では,強化学習におけるTaylor拡張の適用について検討する。特に,事前作業(例えばtrpo)を一階の特別な場合として一般化した政策最適化形式であるtaylor expansion policy optimizationを提案する。また,テイラー展開はオフ・ポリティカル評価と密接に関連していることを示した。最後に、この新たな定式化は、いくつかの最先端分散アルゴリズムの性能を改善する修正を必要とすることを示す。

関連論文リスト

TaylorPODA: A Taylor Expansion-Based Method to Improve Post-Hoc Attributions for Opaque Models [1.253514894229043]
既存のポストホックモデルに依存しない手法は、不透明なモデルに対する外部説明を生成する。本稿では,Taylor項固有の属性を管理するために,厳密な仮定,すなわち「精度」,「フィード」,「ゼロ差分性」を提案する。
論文参考訳（メタデータ） (2025-07-14T16:38:30Z)
Convergence of Policy Mirror Descent Beyond Compatible Function Approximation [66.4260157478436]
我々は,より弱い変動支配を前提とした理論的PMD一般政策クラスを開発し,最良クラス政策への収束を得る。我々の主観念は、占有度-勾配測度によって誘導される局所ノルムによって誘導される新しい概念を活用する。
論文参考訳（メタデータ） (2025-02-16T08:05:46Z)
Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文参考訳（メタデータ） (2023-11-15T13:16:16Z)
Increasing Entropy to Boost Policy Gradient Performance on Personalization Tasks [0.46040036610482665]
政策勾配を用いて訓練した強化学習エージェントから得られた政策の多様性に及ぼす正規化の影響を考察する。数値的な証拠は、ポリシーの正則化が、精度を損なうことなく、性能を向上させることを示すために与えられる。
論文参考訳（メタデータ） (2023-10-09T01:03:05Z)
Policy Gradient Algorithms Implicitly Optimize by Continuation [7.351769270728942]
我々は、政策段階的なアルゴリズムの探索は、目の前にある政策の回帰の継続であり、その回帰を最大化するよりも、政策は歴史に依存しているべきだと論じる。
論文参考訳（メタデータ） (2023-05-11T14:50:20Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
A Parametric Class of Approximate Gradient Updates for Policy Optimization [47.69337420768319]
我々は、勾配形式とスケーリング関数の限定的な選択の観点から、基礎となる更新を再表現する統一的な視点を開発する。我々は、収束速度と最終的な結果品質の両方の利点をもたらすことができる方法で、既存のアルゴリズムを一般化する、新しいが、動機のよい更新を得る。
論文参考訳（メタデータ） (2022-06-17T01:28:38Z)
Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。 PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文参考訳（メタデータ） (2021-10-18T02:33:20Z)
Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文参考訳（メタデータ） (2020-10-20T23:25:42Z)
Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2020-08-25T04:09:18Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。