論文の概要: PARL: A Unified Framework for Policy Alignment in Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2308.02585v2
- Date: Sun, 8 Oct 2023 04:28:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 05:01:31.709477
- Title: PARL: A Unified Framework for Policy Alignment in Reinforcement Learning
- Title(参考訳): PARL:強化学習における政策整合のための統一フレームワーク
- Authors: Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Dinesh Manocha,
Huazheng Wang, Mengdi Wang, and Furong Huang
- Abstract要約: 我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
その結果,提案したtextsfPARL が RL におけるアライメントの懸念に対処できる可能性が示唆された。
- 参考スコア(独自算出の注目度): 106.63518036538163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel unified bilevel optimization-based framework,
\textsf{PARL}, formulated to address the recently highlighted critical issue of
policy alignment in reinforcement learning using utility or preference-based
feedback. We identify a major gap within current algorithmic designs for
solving policy alignment due to a lack of precise characterization of the
dependence of the alignment objective on the data generated by policy
trajectories. This shortfall contributes to the sub-optimal performance
observed in contemporary algorithms. Our framework addressed these concerns by
explicitly parameterizing the distribution of the upper alignment objective
(reward design) by the lower optimal variable (optimal policy for the designed
reward). Interestingly, from an optimization perspective, our formulation leads
to a new class of stochastic bilevel problems where the stochasticity at the
upper objective depends upon the lower-level variable. To demonstrate the
efficacy of our formulation in resolving alignment issues in RL, we devised an
algorithm named \textsf{A-PARL} to solve PARL problem, establishing sample
complexity bounds of order $\mathcal{O}(1/T)$. Our empirical results
substantiate that the proposed \textsf{PARL} can address the alignment concerns
in RL by showing significant improvements (up to 63\% in terms of required
samples) for policy alignment in large-scale environments of the Deepmind
control suite and Meta world tasks.
- Abstract(参考訳): 本稿では,最近強調された強化学習におけるポリシーアライメントの問題に対処するために,実用性や嗜好に基づくフィードバックを用いた新しい統合二段階最適化フレームワーク \textsf{parl} を提案する。
政策トラジェクトリによって生成されたデータに対するアライメント目標の依存性の正確な特徴が欠如しているため、政策アライメントを解決するための現在のアルゴリズム設計における大きなギャップを同定する。
この欠点は、現代アルゴリズムで観測される準最適性能に寄与する。
提案手法は,上位アライメント目標(後方設計)の分布を下位最適変数(設計報酬の最適方針)によって明示的にパラメータ化することにより,これらの懸念に対処した。
興味深いことに、最適化の観点から、我々の定式化は、上位の目的の確率性が下位の変数に依存するような、新しい確率的二段階問題をもたらす。
RLにおけるアライメント問題の解法における定式化の有効性を示すために, PARL問題を解くアルゴリズムを考案し, 次数$\mathcal{O}(1/T)$のサンプル複雑性境界を確立する。
提案する \textsf{parl} は,deepmind コントロールスイートとmeta world タスクの大規模環境におけるポリシーアライメントに対する大幅な改善(必要なサンプル数で最大 63 % まで)を示すことにより,rl におけるアライメント問題に対処することができる。
関連論文リスト
- Beyond Single-Model Views for Deep Learning: Optimization versus
Generalizability of Stochastic Optimization Algorithms [13.134564730161983]
本稿では、勾配降下(SGD)とその変種に着目し、ディープラーニングの最適化に新しいアプローチを採用する。
我々はSGDとその変種がSAMのような平らなミニマと同等の性能を示すことを示した。
本研究は、トレーニング損失とホールドアウト精度の関係、およびSGDとノイズ対応変種の性能について、いくつかの重要な知見を明らかにした。
論文 参考訳(メタデータ) (2024-03-01T14:55:22Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Robust Data-driven Prescriptiveness Optimization [2.3204178451683264]
本稿では、古典的経験的リスク目標最小化に代えて、規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。
サンプル外データセットが様々な分散シフトを受ける場合の代替手法に対する結果のロバスト性を評価する。
論文 参考訳(メタデータ) (2023-06-09T14:56:06Z) - Sharp high-probability sample complexities for policy evaluation with
linear function approximation [99.51752176624818]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Anchor-Changing Regularized Natural Policy Gradient for Multi-Objective
Reinforcement Learning [17.916366827429034]
複数の報酬値関数を持つマルコフ決定プロセス(MDP)のポリシー最適化について検討する。
本稿では,順応的な一階法からアイデアを取り入れたアンカー変更型正規化自然政策グラディエントフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-10T21:09:44Z) - Policy Optimization for Stochastic Shortest Path [43.2288319750466]
最短経路(SSP)問題に対する政策最適化について検討する。
本研究では,有限ホライゾンモデルを厳密に一般化した目標指向強化学習モデルを提案する。
ほとんどの設定において、我々のアルゴリズムは、ほぼ最適の後悔境界に達することが示されている。
論文 参考訳(メタデータ) (2022-02-07T16:25:14Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Jointly Learning Environments and Control Policies with Projected
Stochastic Gradient Ascent [3.118384520557952]
この問題を解決するために,政策勾配法とモデルに基づく最適化手法を組み合わせた深層強化学習アルゴリズムを提案する。
本質的に,本アルゴリズムはモンテカルロサンプリングと自動微分によって予測されるリターンの勾配を反復的に近似する。
DEPSは、少なくとも3つの環境では、より少ないイテレーションで高いリターンのソリューションを一貫して得ることができる、ということが示されます。
論文 参考訳(メタデータ) (2020-06-02T16:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。