論文の概要: Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization
- arxiv url: http://arxiv.org/abs/2301.07784v2
- Date: Thu, 23 Mar 2023 16:29:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 17:33:08.062000
- Title: Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization
- Title(参考訳): 一般化政策改善優先順位付けによるサンプル効率の良い多目的学習
- Authors: Lucas N. Alegre and Ana L. C. Bazzan and Diederik M. Roijers and Ann
Now\'e and Bruno C. da Silva
- Abstract要約: マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 8.836422771217084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-objective reinforcement learning (MORL) algorithms tackle sequential
decision problems where agents may have different preferences over (possibly
conflicting) reward functions. Such algorithms often learn a set of policies
(each optimized for a particular agent preference) that can later be used to
solve problems with novel preferences. We introduce a novel algorithm that uses
Generalized Policy Improvement (GPI) to define principled, formally-derived
prioritization schemes that improve sample-efficient learning. They implement
active-learning strategies by which the agent can (i) identify the most
promising preferences/objectives to train on at each moment, to more rapidly
solve a given MORL problem; and (ii) identify which previous experiences are
most relevant when learning a policy for a particular agent preference, via a
novel Dyna-style MORL method. We prove our algorithm is guaranteed to always
converge to an optimal solution in a finite number of steps, or an
$\epsilon$-optimal solution (for a bounded $\epsilon$) if the agent is limited
and can only identify possibly sub-optimal policies. We also prove that our
method monotonically improves the quality of its partial solutions while
learning. Finally, we introduce a bound that characterizes the maximum utility
loss (with respect to the optimal solution) incurred by the partial solutions
computed by our method throughout learning. We empirically show that our method
outperforms state-of-the-art MORL algorithms in challenging multi-objective
tasks, both with discrete and continuous state and action spaces.
- Abstract(参考訳): 多目的強化学習(MORL)アルゴリズムは、エージェントが報酬関数に対して異なる好み(おそらく矛盾する)を持つ可能性のあるシーケンシャルな決定問題に対処する。
このようなアルゴリズムは、しばしば(特定のエージェントの好みに最適化された)一連のポリシーを学習し、後に新しい好みで問題を解決するために使用できる。
本稿では,一般政策改善法(gpi)を用いて,サンプル効率のよい学習法を定式化した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
彼らはエージェントができるアクティブラーニング戦略を実装している
(i)各瞬間に訓練すべき最も有望な選好/目的を特定し、所定のモール問題をより迅速に解くこと。
(2)新しいDynaスタイルのMORL手法を用いて,特定のエージェント選好のポリシーを学ぶ際に,どの経験が最も重要かを特定する。
我々のアルゴリズムは、有限ステップで常に最適解に収束することが保証されており、エージェントが制限され、潜在的に最適でないポリシーを特定できるならば、$\epsilon$-optimal Solution(有界な$\epsilon$)が保証される。
また,本手法が学習中の部分解の品質を単調に改善することを示す。
最後に,本手法が学習を通じて計算した部分解から得られる最大効用損失(最適解に関して)を特徴付ける境界を導入する。
本手法は離散的かつ連続的な状態と行動空間を持つ多目的タスクにおいて,最先端のMORLアルゴリズムよりも優れていることを示す。
関連論文リスト
- C-MORL: Multi-Objective Reinforcement Learning through Efficient Discovery of Pareto Front [9.04360155372014]
制約付きMORLは制約付きポリシー最適化とMORLのシームレスなブリッジである。
我々のアルゴリズムは、離散的かつ連続的な制御タスクにおいて、ハイパーボリューム、期待されるユーティリティ、およびスパーシリティという観点でより一貫性があり、優れた性能を達成する。
論文 参考訳(メタデータ) (2024-10-03T06:13:56Z) - Take a Step and Reconsider: Sequence Decoding for Self-Improved Neural Combinatorial Optimization [1.1510009152620668]
自己改善学習のための単純で問題に依存しないシーケンス復号法を提案する。
以前にサンプリングされたシーケンスを無視するためにポリシーを変更することで、目に見えない代替案のみを検討するように強制する。
本手法は,ジョブショップスケジューリング問題における従来のNCO手法よりも優れていた。
論文 参考訳(メタデータ) (2024-07-24T12:06:09Z) - Local Optimization Achieves Global Optimality in Multi-Agent
Reinforcement Learning [139.53668999720605]
本稿では,各エージェントのローカルポリシーをバニラPPOと同様に更新するマルチエージェントPPOアルゴリズムを提案する。
マルコフゲームにおける標準正則条件と問題依存量により、我々のアルゴリズムはサブリニアレートで大域的最適ポリシーに収束することを示す。
論文 参考訳(メタデータ) (2023-05-08T16:20:03Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Optimistic Linear Support and Successor Features as a Basis for Optimal
Policy Transfer [7.970144204429356]
我々は、SFが凸被覆集合を形成するポリシーの集合を学習するために、最適化線形サポートアルゴリズムのSFベースの拡張を導入する。
この集合におけるポリシは、一般化されたポリシー改善を通じて組み合わせて、新しい線形表現可能なタスクに対して最適な振る舞いを構築することができることを示す。
論文 参考訳(メタデータ) (2022-06-22T19:00:08Z) - Learning Proximal Operators to Discover Multiple Optima [66.98045013486794]
非家族問題における近位演算子を学習するためのエンドツーエンド手法を提案する。
本手法は,弱い目的と穏やかな条件下では,世界規模で収束することを示す。
論文 参考訳(メタデータ) (2022-01-28T05:53:28Z) - Modularity in Reinforcement Learning via Algorithmic Independence in
Credit Assignment [79.5678820246642]
提案手法は, 事前決定の順序に対して, スパース変化のみを必要とする伝達問題に対して, 政策段階の手法よりも, より標本効率が高いことを示す。
我々は最近提案された社会的意思決定の枠組みをマルコフ決定プロセスよりもよりきめ細かい形式主義として一般化する。
論文 参考訳(メタデータ) (2021-06-28T21:29:13Z) - Learning MDPs from Features: Predict-Then-Optimize for Sequential
Decision Problems by Reinforcement Learning [52.74071439183113]
我々は、強化学習を通して解決された逐次決定問題(MDP)の文脈における予測列最適化フレームワークについて検討した。
2つの重要な計算課題は、意思決定中心の学習をMDPに適用することである。
論文 参考訳(メタデータ) (2021-06-06T23:53:31Z) - Provable Multi-Objective Reinforcement Learning with Generative Models [98.19879408649848]
目的の選好から最適な政策を学習する単一政策 MORL の問題について検討する。
既存の方法は、多目的決定プロセスの正確な知識のような強い仮定を必要とする。
モデルベースエンベロップ値 (EVI) と呼ばれる新しいアルゴリズムを提案し, 包含された多目的$Q$学習アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2020-11-19T22:35:31Z) - Submodular Meta-Learning [43.15332631500541]
将来的なタスクのパフォーマンス向上のために,メタラーニングフレームワークの個別版を導入する。
我々のアプローチは、事前データ、すなわち、以前に訪れたタスクを使用して、適切な初期ソリューションセットをトレーニングすることを目的としている。
我々のフレームワークは、性能損失を小さく抑えながら、新しいタスクを解く際に、計算の複雑さを著しく低減させることを示した。
論文 参考訳(メタデータ) (2020-07-11T21:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。