論文の概要: Formal Ethical Obligations in Reinforcement Learning Agents: Verification and Policy Updates
- arxiv url: http://arxiv.org/abs/2408.00147v1
- Date: Wed, 31 Jul 2024 20:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 22:25:51.400421
- Title: Formal Ethical Obligations in Reinforcement Learning Agents: Verification and Policy Updates
- Title(参考訳): 強化学習エージェントにおける形式的倫理的義務:検証と政策更新
- Authors: Colin Shea-Blymyer, Houssam Abbas,
- Abstract要約: 設計者は、エージェントがすべきこと、それが実際に起きていることとどのように衝突するか、そして競合を取り除くためにポリシーをどう修正するかを、自動的に判断するツールが必要です。
我々は、設計時にこの推論を可能にするために、新しいデオン論理、期待されるアクト・ユーティタリアンデオン論理を提案する。
報酬レベルで働くアプローチとは異なり、論理レベルで働くことはトレードオフの透明性を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: When designing agents for operation in uncertain environments, designers need tools to automatically reason about what agents ought to do, how that conflicts with what is actually happening, and how a policy might be modified to remove the conflict. These obligations include ethical and social obligations, permissions and prohibitions, which constrain how the agent achieves its mission and executes its policy. We propose a new deontic logic, Expected Act Utilitarian deontic logic, for enabling this reasoning at design time: for specifying and verifying the agent's strategic obligations, then modifying its policy from a reference policy to meet those obligations. Unlike approaches that work at the reward level, working at the logical level increases the transparency of the trade-offs. We introduce two algorithms: one for model-checking whether an RL agent has the right strategic obligations, and one for modifying a reference decision policy to make it meet obligations expressed in our logic. We illustrate our algorithms on DAC-MDPs which accurately abstract neural decision policies, and on toy gridworld environments.
- Abstract(参考訳): 不確実な環境で運用するエージェントを設計する場合、設計者は、エージェントがすべきことを自動で判断するツール、それが実際に起きていることとどのように衝突するか、そして競合を取り除くためにポリシーをどう修正するかを設計する必要がある。
これらの義務には、倫理的・社会的義務、許可、禁止が含まれており、エージェントがその任務を遂行し、その政策を実行する方法を制限している。
我々は、エージェントの戦略的義務を特定・検証し、それらの義務を満たすための基準政策からポリシーを変更するという、設計時にこの推論を可能にするために、新しいデオン論理、期待されるUtilitarian deontic logicを提案する。
報酬レベルで働くアプローチとは異なり、論理レベルで働くことはトレードオフの透明性を高める。
本稿では,RLエージェントが適切な戦略上の義務を持つかどうかをモデルチェックするアルゴリズムと,論理に表される義務を満たすための基準決定ポリシーを変更するアルゴリズムを導入する。
DAC-MDPは神経決定ポリシーを正確に抽象化し,また,おもちゃのグリッドワールド環境についてもアルゴリズムを解説する。
関連論文リスト
- Adaptive Opponent Policy Detection in Multi-Agent MDPs: Real-Time Strategy Switch Identification Using Running Error Estimation [1.079960007119637]
OPS-DeMoは、動的エラー減衰を利用して相手のポリシーの変更を検出するオンラインアルゴリズムである。
提案手法は,プレデター・プレイ設定のような動的シナリオにおいて,PPO学習モデルよりも優れている。
論文 参考訳(メタデータ) (2024-06-10T17:34:44Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z) - Boolean Decision Rules for Reinforcement Learning Policy Summarisation [16.969788244589388]
我々は、溶岩グリッドワールドを用いたエージェントのポリシーのルールベースの要約を作成する。
本稿では、このルールベースモデルによって生成されたルールを、エージェントのポリシーに課される制約として利用することにより、RLエージェントのポリシーに安全性を導入する可能性について論じる。
論文 参考訳(メタデータ) (2022-07-18T14:51:24Z) - Formalizing the Problem of Side Effect Regularization [81.97441214404247]
本稿では,補助ゲームフレームワークを用いたサイドエフェクト正規化のための公式な基準を提案する。
これらのゲームでは、エージェントは部分的に観測可能なマルコフ決定プロセスを解決する。
このPOMDPは、エージェントが将来的なタスクをこなす能力と、プロキシ報酬を交換することで解決されることを示す。
論文 参考訳(メタデータ) (2022-06-23T16:36:13Z) - Distributed Adaptive Learning Under Communication Constraints [54.22472738551687]
本研究では,コミュニケーション制約下での運用を目的とした適応型分散学習戦略について検討する。
我々は,ストリーミングデータの連続的な観察から,オンライン最適化問題を解決しなければならないエージェントのネットワークを考える。
論文 参考訳(メタデータ) (2021-12-03T19:23:48Z) - Building a Foundation for Data-Driven, Interpretable, and Robust Policy
Design using the AI Economist [67.08543240320756]
AIエコノミストフレームワークは,2段階強化学習とデータ駆動型シミュレーションを用いて,効果的な,柔軟な,解釈可能なポリシー設計を可能にする。
RLを用いて訓練されたログリニア政策は、過去の結果と比較して、公衆衛生と経済の両面から社会福祉を著しく改善することがわかった。
論文 参考訳(メタデータ) (2021-08-06T01:30:41Z) - SPOTTER: Extending Symbolic Planning Operators through Targeted
Reinforcement Learning [24.663586662594703]
シンボリックプランニングモデルにより、意思決定エージェントは任意の方法でアクションをシーケンスし、ダイナミックドメインでさまざまな目標を達成できます。
強化学習アプローチはそのようなモデルを必要とせず、環境を探索して報酬を集めることでドメインダイナミクスを学ぶ。
我々は,当初エージェントが到達できない目標を達成するために必要な新たなオペレータを見つけることで,計画エージェント("spot")の強化とサポートにrlを使用するspotterという統合フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-24T00:31:02Z) - Verifiable Planning in Expected Reward Multichain MDPs [20.456052208569115]
エージェントの意思決定方針を導出する定常計画問題について検討する。
提案プログラムに対する最適解が、厳密な行動保証を伴う定常的な政策をもたらすことを証明した。
論文 参考訳(メタデータ) (2020-12-03T18:54:24Z) - Implicit Distributional Reinforcement Learning [61.166030238490634]
2つのディープジェネレータネットワーク(DGN)上に構築された暗黙の分布型アクター批判(IDAC)
半単純アクター (SIA) は、フレキシブルなポリシー分布を利用する。
我々は,代表的OpenAI Gym環境において,IDACが最先端のアルゴリズムより優れていることを観察する。
論文 参考訳(メタデータ) (2020-07-13T02:52:18Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。