論文の概要: Autonomous Agents and Policy Compliance: A Framework for Reasoning About Penalties
- arxiv url: http://arxiv.org/abs/2512.03931v1
- Date: Wed, 03 Dec 2025 16:29:09 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:08:02.258096
- Title: Autonomous Agents and Policy Compliance: A Framework for Reasoning About Penalties
- Title(参考訳): 自律エージェントと政策コンプライアンス - 罰則を推論するためのフレームワーク
- Authors: Vineel Tummala, Daniela Inclezan,
- Abstract要約: 本稿では、非コンプライアンスに対する潜在的な罰則を推論できる政策対応自律エージェントのための論理プログラミングベースのフレームワークを提案する。
我々のフレームワークは、罰則を組み込むために、Gelfond と Lobo's Authorization and Obligation Policy Language (AOPL)を拡張しています。
本手法は, 規則違反を明確に識別することで, 整然とした政策の確保, 方針の優先事項の説明, 説明可能性の向上を図る。
- 参考スコア(独自算出の注目度): 1.2891210250935148
- License:
- Abstract: This paper presents a logic programming-based framework for policy-aware autonomous agents that can reason about potential penalties for non-compliance and act accordingly. While prior work has primarily focused on ensuring compliance, our approach considers scenarios where deviating from policies may be necessary to achieve high-stakes goals. Additionally, modeling non-compliant behavior can assist policymakers by simulating realistic human decision-making. Our framework extends Gelfond and Lobo's Authorization and Obligation Policy Language (AOPL) to incorporate penalties and integrates Answer Set Programming (ASP) for reasoning. Compared to previous approaches, our method ensures well-formed policies, accounts for policy priorities, and enhances explainability by explicitly identifying rule violations and their consequences. Building on the work of Harders and Inclezan, we introduce penalty-based reasoning to distinguish between non-compliant plans, prioritizing those with minimal repercussions. To support this, we develop an automated translation from the extended AOPL into ASP and refine ASP-based planning algorithms to account for incurred penalties. Experiments in two domains demonstrate that our framework generates higher-quality plans that avoid harmful actions while, in some cases, also improving computational efficiency. These findings underscore its potential for enhancing autonomous decision-making and informing policy refinement. Under consideration in Theory and Practice of Logic Programming (TPLP).
- Abstract(参考訳): 本稿では、非コンプライアンスに対する潜在的な罰則を推論し、それに従って行動することができる政策対応自律エージェントのための論理プログラミングベースのフレームワークを提案する。
これまでの作業は主にコンプライアンスの確保に重点を置いていますが、当社のアプローチでは、高い目標を達成するためにポリシからの逸脱が必要なシナリオを検討しています。
さらに、非コンプライアンスな行動のモデリングは、現実的な人間の意思決定をシミュレートすることで、政策立案者を支援することができる。
我々のフレームワークは,Gelfond と Lobo の認証・オブジェクトポリシー言語 (AOPL) を拡張して,罰則を取り入れ,推論のために Answer Set Programming (ASP) を統合する。
従来の手法と比較して, ルール違反とその影響を明確に識別することで, 適切に構成されたポリシーを保証し, ポリシーの優先順位を考慮し, 説明可能性を高める。
ハーダーズとインクルザンの業績に基づいて、我々は、最小限の反感を持つプランを優先して、非準拠のプランを区別するために、ペナルティに基づく推論を導入する。
これをサポートするために,拡張されたAOPLからASPへの自動翻訳を開発し,引き起こされた罰則を考慮に入れたASPベースの計画アルゴリズムを改良する。
2つの領域の実験により、我々のフレームワークは有害な行動を避けるための高品質な計画を生成する一方で、場合によっては計算効率も向上することを示した。
これらの調査結果は、自律的な意思決定の強化と政策改善の推進の可能性を浮き彫りにした。
論理プログラミングの理論と実践(TPLP)
関連論文リスト
- Stabilizing Policy Gradients for Sample-Efficient Reinforcement Learning in LLM Reasoning [77.92320830700797]
強化学習は、大規模言語モデルの推論機能を実現する上で中心的な役割を果たしてきた。
本稿では,ポリシー更新時の曲率情報を追跡し,活用するトラクタブルな計算フレームワークを提案する。
アルゴリズムであるCurvature-Aware Policy Optimization (CAPO)は、不安定な更新に寄与するサンプルを特定し、それらをマスクアウトする。
論文 参考訳(メタデータ) (2025-10-01T12:29:32Z) - Scaling Policy Compliance Assessment in Language Models with Policy Reasoning Traces [12.671657542087624]
ポリシー推論トレース(英: Policy Reasoning Traces、PRT)は、LLMのポリシーコンプライアンスアセスメント能力を改善するための推論ブリッジとして機能する、特殊化された推論チェーンの一形態である。
実験により, PRTを推論時間とトレーニング時間の両方のシナリオに使用することにより, オープンウェイトモデルと商用モデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2025-09-27T13:10:21Z) - Proactive Constrained Policy Optimization with Preemptive Penalty [11.93135424276656]
本稿では,制約付き政策最適化のための新しいプリエンプティブ・ペナルティ・メカニズムを提案する。
このメカニズムは、ポリシーが境界に近づくと、障壁要素を目的の関数に統合し、コストを課す。
また,政策が制約境界に近づいた場合にのみ有効となる境界対応探索を誘導するために,制約対応固有の報酬を導入する。
論文 参考訳(メタデータ) (2025-08-03T18:35:55Z) - Learning Deterministic Policies with Policy Gradients in Constrained Markov Decision Processes [59.27926064817273]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し,支配的仮定の下でのグローバルな最終点収束保証を享受する。
制約制御タスクにおいて,アクションベース(C-PGAE)とパラメータベース(C-PGPE)の両方を実証的に検証する。
論文 参考訳(メタデータ) (2025-06-06T10:29:05Z) - Efficient Action-Constrained Reinforcement Learning via Acceptance-Rejection Method and Augmented MDPs [13.443196224057658]
行動制約強化学習(ACRL)は、行動制約違反をゼロとする制御ポリシーを学習するための一般的なフレームワークである。
本稿では、標準制約のないRL法をACRLに適用できる汎用的で効率的なフレームワークを提案する。
提案手法は,現状のACRL法よりも高速なトレーニング,制約満足度の向上,アクション推論時間の短縮を実現している。
論文 参考訳(メタデータ) (2025-03-17T08:41:43Z) - Exterior Penalty Policy Optimization with Penalty Metric Network under Constraints [52.37099916582462]
制約強化学習(CRL:Constrained Reinforcement Learning)では、エージェントが制約を満たしながら最適なポリシーを学習するために環境を探索する。
我々は,刑罰科目ネットワーク(PMN)が生み出す適応的な罰則を持つ,理論的に保証された刑罰関数法(Exterior Penalty Policy Optimization (EPO))を提案する。
PMNは様々な制約違反に適切に対応し、効率的な制約満足度と安全な探索を可能にする。
論文 参考訳(メタデータ) (2024-07-22T10:57:32Z) - Last-Iterate Global Convergence of Policy Gradients for Constrained Reinforcement Learning [62.81324245896717]
我々はC-PGと呼ばれる探索非依存のアルゴリズムを導入し、このアルゴリズムは(弱)勾配支配仮定の下でのグローバルな最終点収束を保証する。
制約付き制御問題に対して,我々のアルゴリズムを数値的に検証し,それらを最先端のベースラインと比較する。
論文 参考訳(メタデータ) (2024-07-15T14:54:57Z) - Penalization Framework For Autonomous Agents Using Answer Set
Programming [0.0]
本稿では,変化する環境における権限・義務ポリシーに従わない知的エージェントに対する罰則を強制するための枠組みを提案する。
枠組みは、計画上の罰則を表現し、推論するために提案され、認可と義務ポリシーに対するコンプライアンスのレベルに基づいてエージェントの行為を罰するアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2023-08-30T09:09:27Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。