論文の概要: Joint Optimization of Multi-Objective Reinforcement Learning with Policy
Gradient Based Algorithm
- arxiv url: http://arxiv.org/abs/2105.14125v1
- Date: Fri, 28 May 2021 22:20:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:35:02.312477
- Title: Joint Optimization of Multi-Objective Reinforcement Learning with Policy
Gradient Based Algorithm
- Title(参考訳): ポリシー勾配に基づくアルゴリズムを用いた多目的強化学習の協調最適化
- Authors: Qinbo Bai and Mridul Agarwal and Vaneet Aggarwal
- Abstract要約: 複数の長期目標の非線形凹関数を最大化する問題を定式化する。
この問題に対してポリシー段階に基づくモデルフリーアルゴリズムを提案する。
提案アルゴリズムは,グローバルオプティマの$epsilon$以内に収束することが示されている。
- 参考スコア(独自算出の注目度): 34.77250498401055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many engineering problems have multiple objectives, and the overall aim is to
optimize a non-linear function of these objectives. In this paper, we formulate
the problem of maximizing a non-linear concave function of multiple long-term
objectives. A policy-gradient based model-free algorithm is proposed for the
problem. To compute an estimate of the gradient, a biased estimator is
proposed. The proposed algorithm is shown to achieve convergence to within an
$\epsilon$ of the global optima after sampling
$\mathcal{O}(\frac{M^4\sigma^2}{(1-\gamma)^8\epsilon^4})$ trajectories where
$\gamma$ is the discount factor and $M$ is the number of the agents, thus
achieving the same dependence on $\epsilon$ as the policy gradient algorithm
for the standard reinforcement learning.
- Abstract(参考訳): 多くの工学的問題には複数の目的があり、全体的な目的はこれらの目的の非線形関数を最適化することである。
本稿では,複数の長期目標の非線形凹関数を最大化する問題を定式化する。
この問題に対して,ポリシー勾配に基づくモデルフリーアルゴリズムを提案する。
勾配の推定値を計算するため,偏り推定器を提案する。
提案アルゴリズムは,$\mathcal{o}(\frac{m^4\sigma^2}{(1-\gamma)^8\epsilon^4})$トラジェクタにおいて$\gamma$がディスカウント係数であり,$m$がエージェント数であるような場合,標準強化学習のためのポリシー勾配アルゴリズムである$\epsilon$への依存度が得られるようにして,グローバルオプティマの$\epsilon$内に収束することを示す。
関連論文リスト
- Low-Switching Policy Gradient with Exploration via Online Sensitivity
Sampling [23.989009116398208]
一般非線形関数近似を用いた低スイッチングサンプリング効率ポリシ最適化アルゴリズム LPO を設計する。
提案アルゴリズムは,$widetildeO(fractextpoly(d)varepsilon3)$サンプルのみを用いて,$varepsilon$-optimal Policyを得る。
論文 参考訳(メタデータ) (2023-06-15T23:51:46Z) - Adaptive Policy Learning to Additional Tasks [3.43814540650436]
本稿では,事前訓練されたポリシーを調整し,本来のタスクを変更することなく追加タスクに適応するためのポリシー学習手法を開発する。
本稿では,適応政策グラディエント (APG) という手法を提案する。これはベルマンの最適性の原理と,収束率を改善するための政策勾配アプローチを組み合わせたものである。
論文 参考訳(メタデータ) (2023-05-24T14:31:11Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - A framework for bilevel optimization that enables stochastic and global
variance reduction algorithms [17.12280360174073]
双レベル最適化は、他の関数のarg最小値を含む値関数を最小化する問題である。
本稿では, 内部問題の解, 線形系の解, 主変数を同時に発展させる新しい枠組みを提案する。
我々のフレームワークにおけるSAGAアルゴリズムの適応であるSABAは$O(frac1T)$収束率を持ち、Polyak-Lojasciewicz仮定の下で線形収束を達成することを示した。
論文 参考訳(メタデータ) (2022-01-31T18:17:25Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Bregman Gradient Policy Optimization [97.73041344738117]
本稿では,Bregmanの発散と運動量に基づく強化学習のためのBregmanグラデーションポリシーの最適化を設計する。
VR-BGPOは、各イテレーションで1つの軌道のみを必要とする$epsilon$stationaryポイントを見つけるために、$tilde(epsilon-3)$で最高の複雑性に達する。
論文 参考訳(メタデータ) (2021-06-23T01:08:54Z) - On the Convergence and Sample Efficiency of Variance-Reduced Policy
Gradient Method [38.34416337932712]
政策は、例えばREINFORCEのようなリッチな強化学習(RL)手法を生み出します。
しかし、そのようなメソッドが$epsilon$-optimal Policyを見つけるための最もよく知られたサンプルの複雑さは$mathcalO(epsilon-3)$である。
第一次政策最適化法の基本収束特性とサンプル効率について検討する。
論文 参考訳(メタデータ) (2021-02-17T07:06:19Z) - A Two-Timescale Framework for Bilevel Optimization: Complexity Analysis
and Application to Actor-Critic [142.1492359556374]
双レベル最適化は、2レベル構造を示す問題のクラスである。
このような二段階問題に対処するための2段階近似(TTSA)アルゴリズムを提案する。
本稿では,TTSAフレームワークの特殊な事例として,2段階の自然なアクター・クリティカルポリシー最適化アルゴリズムが有用であることを示す。
論文 参考訳(メタデータ) (2020-07-10T05:20:02Z) - Private Stochastic Non-Convex Optimization: Adaptive Algorithms and
Tighter Generalization Bounds [72.63031036770425]
有界非次元最適化のための差分プライベート(DP)アルゴリズムを提案する。
標準勾配法に対する経験的優位性について,2つの一般的なディープラーニング手法を実証する。
論文 参考訳(メタデータ) (2020-06-24T06:01:24Z) - A Hybrid Stochastic Policy Gradient Algorithm for Reinforcement Learning [32.91450388566405]
近接ハイブリッドポリシー勾配アルゴリズム(ProxHSPGA)の開発
両アルゴリズムが最もよく知られた軌跡複雑性を$mathcalOleft(varepsilon-4right)$で実現できることを証明している。
我々は、強化学習におけるいくつかのよく知られた例に基づいて、アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2020-03-01T07:45:51Z) - Towards Better Understanding of Adaptive Gradient Algorithms in
Generative Adversarial Nets [71.05306664267832]
適応アルゴリズムは勾配の歴史を用いて勾配を更新し、深層ニューラルネットワークのトレーニングにおいてユビキタスである。
本稿では,非コンケーブ最小値問題に対するOptimisticOAアルゴリズムの変種を解析する。
実験の結果,適応型GAN非適応勾配アルゴリズムは経験的に観測可能であることがわかった。
論文 参考訳(メタデータ) (2019-12-26T22:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。