論文の概要: Novel Policy Seeking with Constrained Optimization
- arxiv url: http://arxiv.org/abs/2005.10696v3
- Date: Sat, 29 Oct 2022 16:49:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 22:36:00.752641
- Title: Novel Policy Seeking with Constrained Optimization
- Title(参考訳): 制約付き最適化による新しい政策
- Authors: Hao Sun, Zhenghao Peng, Bo Dai, Jian Guo, Dahua Lin, Bolei Zhou
- Abstract要約: 本稿では,強化学習課題における新しい政策作成の問題を再考する。
まず、政策間の差異を評価するための新しい指標を導入し、2つの実用的な政策生成手法を設計する。
The Constrained Task Novel Bisector (CTNB) and the internal Policy Differentiation (IPD) is derived from the fiable direction method and the interior point method known in the constrained optimization literature。
- 参考スコア(独自算出の注目度): 131.67409598529287
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In problem-solving, we humans can come up with multiple novel solutions to
the same problem. However, reinforcement learning algorithms can only produce a
set of monotonous policies that maximize the cumulative reward but lack
diversity and novelty. In this work, we address the problem of generating novel
policies in reinforcement learning tasks. Instead of following the
multi-objective framework used in existing methods, we propose to rethink the
problem under a novel perspective of constrained optimization. We first
introduce a new metric to evaluate the difference between policies and then
design two practical novel policy generation methods following the new
perspective. The two proposed methods, namely the Constrained Task Novel
Bisector (CTNB) and the Interior Policy Differentiation (IPD), are derived from
the feasible direction method and the interior point method commonly known in
the constrained optimization literature. Experimental comparisons on the MuJoCo
control suite show our methods can achieve substantial improvement over
previous novelty-seeking methods in terms of both the novelty of policies and
their performances in the primal task.
- Abstract(参考訳): 問題解決では、人間は同じ問題に対して複数の新しい解決策を思いつくことができる。
しかし、強化学習アルゴリズムは、累積報酬を最大化するが多様性と新規性を欠く単調なポリシーの集合しか生成できない。
本研究では,強化学習タスクにおける新しいポリシー作成の問題に対処する。
既存の手法で使用される多目的フレームワークに従う代わりに,制約付き最適化という新たな視点の下で問題を再考する。
まず,政策間の差異を評価するための新しい指標を導入し,新しい視点に従って2つの実用的な政策生成手法を設計する。
制約付きタスク・ノベル・バイセクタ(ctnb)と内的政策分化(ipd)という2つの手法は、制約付き最適化文献で一般的に知られている実現可能な方向法と内的点法に由来する。
MuJoCo コントロールスイートを用いた実験結果から,従来の新規検索手法に比べて,ポリシーの新規性とプライマリタスクにおける性能の両面で大幅な改善が達成できた。
関連論文リスト
- Control in Stochastic Environment with Delays: A Model-based
Reinforcement Learning Approach [3.130722489512822]
遅延フィードバックを伴う環境における制御問題に対する新しい強化学習手法を提案する。
具体的には,決定論的計画を用いた従来の手法に対して,計画を採用する。
この定式化は、決定論的遷移の問題に対する最適ポリシーを回復できることを示す。
論文 参考訳(メタデータ) (2024-02-01T03:53:56Z) - Last-Iterate Convergent Policy Gradient Primal-Dual Methods for
Constrained MDPs [107.28031292946774]
無限水平割引マルコフ決定過程(拘束型MDP)の最適ポリシの計算問題について検討する。
我々は, 最適制約付きポリシーに反復的に対応し, 非漸近収束性を持つ2つの単一スケールポリシーに基づく原始双対アルゴリズムを開発した。
我々の知る限り、この研究は制約付きMDPにおける単一時間スケールアルゴリズムの非漸近的な最後の収束結果となる。
論文 参考訳(メタデータ) (2023-06-20T17:27:31Z) - Acceleration in Policy Optimization [50.323182853069184]
我々は、楽観的かつ適応的な更新を通じて、政策改善のステップにフォレストを組み込むことにより、強化学習(RL)における政策最適化手法を加速するための統一パラダイムに向けて研究する。
我々は、楽観主義を、政策の将来行動の予測モデルとして定義し、適応性は、過度な予測や変化に対する遅延反応からエラーを軽減するために、即時かつ予測的な修正措置をとるものである。
我々は,メタグラディエント学習による適応型楽観的ポリシー勾配アルゴリズムを設計し,実証的なタスクにおいて,加速度に関連するいくつかの設計選択を実証的に強調する。
論文 参考訳(メタデータ) (2023-06-18T15:50:57Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Memory-Constrained Policy Optimization [59.63021433336966]
政策勾配強化学習のための制約付き最適化手法を提案する。
我々は、過去の幅広い政策を表す別の仮想ポリシーの構築を通じて、第2の信頼領域を形成します。
そして、我々は、新しいポリシーをバーチャルポリシーに近づき続けるよう強制する。
論文 参考訳(メタデータ) (2022-04-20T08:50:23Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - SOAC: The Soft Option Actor-Critic Architecture [25.198302636265286]
低レベルのオプション内ポリシーと高レベルのオプション選択ポリシーを同時に学習する手法が提案されている。
既存の手法は通常、非効率な探索と不安定な更新という2つの大きな課題に悩まされる。
これらの課題に対処するために、最大エントロピーモデルに基づく、新しく安定した非政治的アプローチを提案する。
論文 参考訳(メタデータ) (2020-06-25T13:06:59Z) - Variational Policy Propagation for Multi-agent Reinforcement Learning [68.26579560607597]
本稿では,エージェント間の相互作用を通じて,共役ポリシーを学習するために,変動ポリシー伝搬 (VPP) という,共役型多エージェント強化学習アルゴリズムを提案する。
共同政策がマルコフランダム場(Markov Random Field)であることは、いくつかの穏やかな条件下で証明し、それによって政策空間を効果的に減少させる。
我々は、マルコフ確率場から効率的に行動をサンプリングでき、全体的な政策が微分可能であるようなポリシーにおいて、変動推論を特別な微分可能な層として統合する。
論文 参考訳(メタデータ) (2020-04-19T15:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。