論文の概要: Lexicographic Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.13769v1
- Date: Wed, 28 Dec 2022 10:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:44:22.583396
- Title: Lexicographic Multi-Objective Reinforcement Learning
- Title(参考訳): 辞書多目的強化学習
- Authors: Joar Skalse, Lewis Hammond, Charlie Griffin, Alessandro Abate
- Abstract要約: このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
- 参考スコア(独自算出の注目度): 65.90380946224869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work we introduce reinforcement learning techniques for solving
lexicographic multi-objective problems. These are problems that involve
multiple reward signals, and where the goal is to learn a policy that maximises
the first reward signal, and subject to this constraint also maximises the
second reward signal, and so on. We present a family of both action-value and
policy gradient algorithms that can be used to solve such problems, and prove
that they converge to policies that are lexicographically optimal. We evaluate
the scalability and performance of these algorithms empirically, demonstrating
their practical applicability. As a more specific application, we show how our
algorithms can be used to impose safety constraints on the behaviour of an
agent, and compare their performance in this context with that of other
constrained reinforcement learning algorithms.
- Abstract(参考訳): 本研究では,語彙的多目的問題を解決するための強化学習手法を提案する。
これらは、複数の報酬信号を含む問題であり、第一の報酬信号を最大化するポリシーを学習することであり、この制約に従えば第二の報酬信号も最大化する等である。
このような問題を解くのに使用できるアクション値およびポリシー勾配アルゴリズムのファミリーを示し、それらが語彙学的に最適であるポリシーに収束することを証明する。
我々は,これらのアルゴリズムのスケーラビリティと性能を実証的に評価し,実用性を示す。
より具体的なアプリケーションとして、エージェントの動作に安全制約を課すために我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
関連論文リスト
- Thresholded Lexicographic Ordered Multiobjective Reinforcement Learning [0.0]
語彙的多目的問題は、多くの現実のシナリオにおいて、目的に対して語彙的重要性の順序を課す。
既存の強化学習では、語彙的タスクに直接対処する作業が不足している。
本稿では,これらの理論的・実践的な問題に対処する可能性を持つLexicographic Projection Optimization (LPO)アルゴリズムを用いた政策最適化手法を提案する。
論文 参考訳(メタデータ) (2024-08-24T06:32:30Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Sample-Efficient Multi-Objective Learning via Generalized Policy
Improvement Prioritization [8.836422771217084]
マルチオブジェクト強化学習(MORL)アルゴリズムは、エージェントが異なる好みを持つ可能性のあるシーケンシャルな決定問題に対処する。
本稿では、一般化政策改善(GPI)を用いて、原則的、正式に派生した優先順位付けスキームを定義する新しいアルゴリズムを提案する。
実験により,本手法は多目的タスクの挑戦において,最先端のMORLアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-18T20:54:40Z) - Multi-Task Off-Policy Learning from Bandit Feedback [54.96011624223482]
本稿では,階層型非政治最適化アルゴリズム (HierOPO) を提案する。
学習方針の準最適性にタスクごとのバウンダリを証明し、階層モデルを使用しないよりも明確な改善を示す。
我々の理論的および実証的な結果は、各タスクを個別に解くよりも、階層を使うことの明確な利点を示している。
論文 参考訳(メタデータ) (2022-12-09T08:26:27Z) - Attaining Interpretability in Reinforcement Learning via Hierarchical
Primitive Composition [3.1078562713129765]
本稿では,従来の課題を階層構造に分解して軽減する階層型強化学習アルゴリズムを提案する。
提案手法は,6自由度マニピュレータを用いてピック・アンド・プレイス・タスクを解くことで,実際にどのように適用できるかを示す。
論文 参考訳(メタデータ) (2021-10-05T05:59:31Z) - Inverse Reinforcement Learning with Explicit Policy Estimates [19.159290496678004]
逆強化学習問題を解くための様々な手法が、機械学習と経済学において独立に開発された。
我々は、それらがすべて共通の形態の勾配、関連する政策と目的によって特徴づけられる最適化問題のクラスに属していることを示しています。
この最適化問題の研究から得られた知見を用いて,様々な問題シナリオを特定し,それらの問題に対する各手法の適合性について検討する。
論文 参考訳(メタデータ) (2021-03-04T07:00:58Z) - State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards [88.30521204048551]
制約付き強化学習の一般的な定式化には、与えられた閾値に個別に蓄積しなければならない複数の報酬が含まれる。
ここでは,任意の重み付けされた報酬の線形結合によって,所望の最適政策を誘導できない簡単な例を示す。
この研究は、ラグランジュ乗算器で状態を増大させ、原始双対法を再解釈することで、この欠点に対処する。
論文 参考訳(メタデータ) (2021-02-23T21:07:35Z) - Safe Reinforcement Learning of Control-Affine Systems with Vertex
Networks [14.461847761198037]
本稿では,厳密な状態と行動制約を持つ制御系に対する強化学習ポリシーの探索に焦点をあてる。
制約満足度、あるいは安全性を確保するためのこれまでの作業は、学習されたポリシーに予測ステップを追加することに重点を置いていた。
この問題に対処するため,本研究では,探索中の安全性と学習制御ポリシを保証したVertex Networks (VNs) と呼ばれる新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-03-20T20:32:20Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。