論文の概要: Algorithms for learning value-aligned policies considering admissibility relaxation
- arxiv url: http://arxiv.org/abs/2406.04838v1
- Date: Fri, 7 Jun 2024 11:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:30:43.497948
- Title: Algorithms for learning value-aligned policies considering admissibility relaxation
- Title(参考訳): 許容緩和を考慮した価値整合政策学習アルゴリズム
- Authors: Andrés Holgado-Sánchez, Joaquín Arias, Holger Billhardt, Sascha Ossowski,
- Abstract要約: 価値認識工学の新たな分野は、ソフトウェアエージェントとシステムは価値を意識すべきである、と主張している。
本稿では,局所的なアライメントに基づく戦略のための$epsilontext-ADQL$と,一連の決定のための$epsilontext-CADQL$という2つのアルゴリズムを提案する。
干ばつシナリオにおいて,水分散問題における効率性を検証した。
- 参考スコア(独自算出の注目度): 1.8336820954218835
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emerging field of \emph{value awareness engineering} claims that software agents and systems should be value-aware, i.e. they must make decisions in accordance with human values. In this context, such agents must be capable of explicitly reasoning as to how far different courses of action are aligned with these values. For this purpose, values are often modelled as preferences over states or actions, which are then aggregated to determine the sequences of actions that are maximally aligned with a certain value. Recently, additional value admissibility constraints at this level have been considered as well. However, often relaxed versions of these constraints are needed, and this increases considerably the complexity of computing value-aligned policies. To obtain efficient algorithms that make value-aligned decisions considering admissibility relaxation, we propose the use of learning techniques, in particular, we have used constrained reinforcement learning algorithms. In this paper, we present two algorithms, $\epsilon\text{-}ADQL$ for strategies based on local alignment and its extension $\epsilon\text{-}CADQL$ for a sequence of decisions. We have validated their efficiency in a water distribution problem in a drought scenario.
- Abstract(参考訳): emph{value awareness engineering} の出現する分野は、ソフトウェアエージェントとシステムは価値を意識すべきである、すなわち、人的価値に応じて決定を下さなければならない、と主張している。
この文脈では、そのようなエージェントは、これらの値とどれだけ異なるアクションのコースが一致しているかを明確に推論できなければならない。
この目的のために、値はしばしば状態やアクションよりも好みとしてモデル化され、それを集約して、ある値に最大に整合したアクションのシーケンスを決定する。
近年、このレベルの付加的な値許容性制約も検討されている。
しかし、これらの制約の緩やかなバージョンは必要であり、これは値整合ポリシーの計算の複雑さを大幅に増大させる。
適応性緩和を考慮した価値整合性決定を行う効率的なアルゴリズムを得るために,学習手法,特に制約付き強化学習アルゴリズムを提案する。
本稿では、局所的なアライメントに基づく戦略のための$\epsilon\text{-}ADQL$と、一連の決定のための$\epsilon\text{-}CADQL$という2つのアルゴリズムを提案する。
干ばつシナリオにおいて,水分散問題における効率性を検証した。
関連論文リスト
- Deterministic Policies for Constrained Reinforcement Learning in Polynomial-Time [1.223779595809275]
本稿では,制約付き強化学習問題に対する近似的決定性ポリシを効率的に計算するアルゴリズムを提案する。
我々の研究は、意思決定における現実世界の課題に対処するための証明可能な効率的なアルゴリズムを提供するだけでなく、制約された決定論的ポリシーの効率的な計算のための統一理論も提供する。
論文 参考訳(メタデータ) (2024-05-23T05:27:51Z) - Handling Cost and Constraints with Off-Policy Deep Reinforcement
Learning [2.793095554369282]
政治外学習の最も一般的な方法は、学習された状態アクション(Q$)値関数が選択されたデータのバッチに対して最大化されるポリシー改善ステップである。
我々は、この戦略を「混合符号」報酬関数を持つ環境で再考する。
この2つ目のアプローチは、混合符号の報酬を持つ連続的な行動空間に適用した場合、リセットによって拡張された最先端の手法よりも一貫して、著しく優れる。
論文 参考訳(メタデータ) (2023-11-30T16:31:04Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Lexicographic Multi-Objective Reinforcement Learning [65.90380946224869]
このような問題を解決するために,アクション値アルゴリズムとポリシー勾配アルゴリズムの両方のファミリを提案する。
エージェントの動作に安全制約を課すのに我々のアルゴリズムをどのように使用できるかを示し、この文脈でのそれらの性能を他の制約付き強化学習アルゴリズムと比較する。
論文 参考訳(メタデータ) (2022-12-28T10:22:36Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Reinforcement Learning with Almost Sure Constraints [1.0323063834827415]
我々は、この問題を解決するのに定常的な政策は十分ではないと論じる。
安全動作に必要な最小限の予算がベルマン作用素の最小固定点として得られることを示す。
論文 参考訳(メタデータ) (2021-12-09T20:07:53Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z) - Average Reward Adjusted Discounted Reinforcement Learning:
Near-Blackwell-Optimal Policies for Real-World Applications [0.0]
強化学習は、与えられたマルコフ決定プロセスの最適な定常ポリシーを見つけることを目的としている。
本稿では,広く適用されている標準割引強化学習フレームワークについて,理論的考察を行う。
我々はブラックウェル-最適強化学習アルゴリズムを新たに構築する。
論文 参考訳(メタデータ) (2020-04-02T08:05:18Z) - Kalman meets Bellman: Improving Policy Evaluation through Value Tracking [59.691919635037216]
政策評価は強化学習(RL)における重要なプロセスである
我々はKalman Optimization for Value Approximation (KOVA)と呼ばれる最適化手法を考案した。
KOVAはパラメータとノイズリターンの不確実性の両方に関する正規化対象関数を最小化する。
論文 参考訳(メタデータ) (2020-02-17T13:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。