論文の概要: Deontically Constrained Policy Improvement in Reinforcement Learning Agents
- arxiv url: http://arxiv.org/abs/2506.06959v1
- Date: Sun, 08 Jun 2025 01:01:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.06823
- Title: Deontically Constrained Policy Improvement in Reinforcement Learning Agents
- Title(参考訳): 強化学習エージェントの非抑制的政策改善
- Authors: Alena Makarova, Houssam Abbas,
- Abstract要約: マルコフ決定プロセス(MDP)は、機械学習コミュニティにおいて不確実性の下で意思決定を行うための最も一般的なモデルである。
MDPは非決定性、確率的不確実性、および明示的な行動モデルを取得する。
強化学習(RL)エージェントは、実用機能を最大化することにより、MDPで行動することを学ぶ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Markov Decision Processes (MDPs) are the most common model for decision making under uncertainty in the Machine Learning community. An MDP captures non-determinism, probabilistic uncertainty, and an explicit model of action. A Reinforcement Learning (RL) agent learns to act in an MDP by maximizing a utility function. This paper considers the problem of learning a decision policy that maximizes utility subject to satisfying a constraint expressed in deontic logic. In this setup, the utility captures the agent's mission - such as going quickly from A to B. The deontic formula represents (ethical, social, situational) constraints on how the agent might achieve its mission by prohibiting classes of behaviors. We use the logic of Expected Act Utilitarianism, a probabilistic stit logic that can be interpreted over controlled MDPs. We develop a variation on policy improvement, and show that it reaches a constrained local maximum of the mission utility. Given that in stit logic, an agent's duty is derived from value maximization, this can be seen as a way of acting to simultaneously maximize two value functions, one of which is implicit, in a bi-level structure. We illustrate these results with experiments on sample MDPs.
- Abstract(参考訳): マルコフ決定プロセス(MDP)は、機械学習コミュニティにおいて不確実性の下で意思決定を行うための最も一般的なモデルである。
MDPは非決定性、確率的不確実性、および明示的な行動モデルを取得する。
強化学習(RL)エージェントは、実用機能を最大化することにより、MDPで行動することを学ぶ。
本稿では,デオン論理で表される制約を満たすために,ユーティリティ対象を最大化する決定ポリシーを学習する問題について考察する。
この設定では、ユーティリティーはエージェントの使命を捉え、例えばAからBへすばやく行くなど、エージェントが行動のクラスを禁止して、エージェントがそのミッションを達成する方法に関する(倫理的、社会的、状況的な)制約を表す。
我々は、制御されたMDPを通して解釈できる確率論的スティット論理である期待された行為利用主義の論理を用いる。
我々は、政策改善のバリエーションを開発し、ミッションユーティリティの制限された局所的な最大値に達することを示す。
スティット論理では、エージェントの義務は値の最大化から導かれるので、これは2つの値関数を同時に最大化する方法と見なすことができる。
MDPのサンプル実験により,これらの結果について述べる。
関連論文リスト
- Generalization in Monitored Markov Decision Processes (Mon-MDPs) [9.81003561034599]
多くの実世界のシナリオでは、報酬は常に観測可能であるわけではなく、モニターされたマルコフ決定プロセス(Mon-MDP)としてモデル化することができる。
本研究は,関数近似(FA)を用いてMon-MDPを探索し,関連する課題について検討する。
学習した報酬モデルと関数近似を組み合わせることで,監視対象状態から監視対象環境状態へ,監視対象状態から監視対象環境までの報酬を一般化できることを示す。
論文 参考訳(メタデータ) (2025-05-13T21:58:25Z) - Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。
一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。
本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文 参考訳(メタデータ) (2024-05-03T16:45:15Z) - Utility Theory for Sequential Decision Making [20.7262938359876]
メモリレスの嗜好が、移行当たりの報酬や、将来のリターンに対する乗法的要因という形で実用性をもたらすことを示す。
我々は、強化学習における合理的エージェントの設計の根底にある報酬仮説をデミスティフィケートする。
論文 参考訳(メタデータ) (2022-06-27T21:28:35Z) - Reinforcement Learning with a Terminator [80.34572413850186]
我々は, TerMDP のパラメータを学習し, 推定問題の構造を活用し, 状態ワイドな信頼境界を提供する。
我々はこれらを用いて証明可能な効率のよいアルゴリズムを構築し、終端を考慮し、その後悔を抑える。
論文 参考訳(メタデータ) (2022-05-30T18:40:28Z) - Lazy-MDPs: Towards Interpretable Reinforcement Learning by Learning When
to Act [42.909535340099296]
我々は、標準マルコフ決定プロセスを強化し、新しい動作モードを利用可能にすることを提案する。
本稿では,遅延MDPの理論的性質,値関数の表現,最適解のキャラクタリゼーションについて検討する。
デフォルトと新しい遅延ポリシーの間のパフォーマンスの違いを説明するので、これらの状態と対応するアクションが重要であると判断します。
論文 参考訳(メタデータ) (2022-03-16T11:06:25Z) - Exploiting Submodular Value Functions For Scaling Up Active Perception [60.81276437097671]
アクティブな知覚タスクでは、エージェントは1つ以上の隠れ変数の不確実性を減少させる感覚行動を選択することを目的としている。
部分的に観測可能なマルコフ決定過程(POMDP)は、そのような問題に対する自然なモデルを提供する。
エージェントが利用できるセンサーの数が増えるにつれて、POMDP計画の計算コストは指数関数的に増加する。
論文 参考訳(メタデータ) (2020-09-21T09:11:36Z) - Exploration-Exploitation in Constrained MDPs [79.23623305214275]
拘束マルコフ決定過程(CMDP)における探索・探索ジレンマについて検討する。
未知のCMDPで学習している間、エージェントは、MDPに関する新しい情報を見つけるために、トレードオフ探索を行う必要がある。
エージェントは最終的に良い方針や最適な方針を学習するが、学習プロセス中にエージェントが制約に過度に違反することを望まない。
論文 参考訳(メタデータ) (2020-03-04T17:03:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。