論文の概要: MoralityGym: A Benchmark for Evaluating Hierarchical Moral Alignment in Sequential Decision-Making Agents
- arxiv url: http://arxiv.org/abs/2602.13372v1
- Date: Fri, 13 Feb 2026 15:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.949291
- Title: MoralityGym: A Benchmark for Evaluating Hierarchical Moral Alignment in Sequential Decision-Making Agents
- Title(参考訳): MoralityGym:シークエンシャル意思決定エージェントにおける階層的モラルアライメントの評価ベンチマーク
- Authors: Simon Rosen, Siddarth Singh, Ebenezer Gelo, Helen Sarah Robertson, Ibrahim Suder, Victoria Williams, Benjamin Rosman, Geraud Nangue Tasse, Steven James,
- Abstract要約: 本稿では,道徳的規範を順序付きデオン的制約として表現するための新しい形式主義であるモラル・チェーンと,トロリー・ジレンマ型体育館環境として提示される98の倫理的ジレンマ問題のベンチマークであるモラル・ガイムを紹介する。
この研究は、複雑な現実世界のコンテキストにおいて、より確実に、透過的に、倫理的に振る舞うAIシステムを開発するための基盤を提供する。
- 参考スコア(独自算出の注目度): 10.221486703870996
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating moral alignment in agents navigating conflicting, hierarchically structured human norms is a critical challenge at the intersection of AI safety, moral philosophy, and cognitive science. We introduce Morality Chains, a novel formalism for representing moral norms as ordered deontic constraints, and MoralityGym, a benchmark of 98 ethical-dilemma problems presented as trolley-dilemma-style Gymnasium environments. By decoupling task-solving from moral evaluation and introducing a novel Morality Metric, MoralityGym allows the integration of insights from psychology and philosophy into the evaluation of norm-sensitive reasoning. Baseline results with Safe RL methods reveal key limitations, underscoring the need for more principled approaches to ethical decision-making. This work provides a foundation for developing AI systems that behave more reliably, transparently, and ethically in complex real-world contexts.
- Abstract(参考訳): 対立し、階層的に構造化された人間の規範をナビゲートするエージェントの道徳的アライメントを評価することは、AIの安全性、道徳哲学、認知科学の交差点における重要な課題である。
本稿では,道徳的規範を順序付きデオン的制約として表現するための新しい形式主義であるモラル・チェーンと,トロリー・ジレンマ型体育館環境として提示される98の倫理的ジレンマ問題のベンチマークであるモラル・ガイムを紹介する。
道徳的評価からタスク解決を分離し、新しいモラル・メトリックを導入することで、モラル・ガイムは心理学と哲学からの洞察をノルムに敏感な推論の評価に統合することができる。
Safe RLメソッドのベースライン結果は重要な制限を明らかにし、倫理的意思決定に対するより原則化されたアプローチの必要性を強調している。
この研究は、複雑な現実世界のコンテキストにおいて、より確実に、透過的に、倫理的に振る舞うAIシステムを開発するための基盤を提供する。
関連論文リスト
- Mirror: A Multi-Agent System for AI-Assisted Ethics Review [104.3684024153469]
MirrorはAIによる倫理的レビューのためのエージェントフレームワークである。
倫理的推論、構造化された規則解釈、統合されたアーキテクチャ内でのマルチエージェントの議論を統合する。
論文 参考訳(メタデータ) (2026-02-09T03:38:55Z) - Addressing Moral Uncertainty using Large Language Models for Ethical Decision-Making [0.42481744176244507]
本稿では,タスクに依存しない倫理的レイヤを用いて,事前学習された強化学習(RL)モデルを洗練する倫理的意思決定フレームワークを提案する。
倫理的階層は、Jensen-Shannon Divergence と Dempster-Shafer Theory を用いて複数の道徳的観点から信念のスコアを集約する。
この統合学習フレームワークは、複雑な環境においてRLエージェントが道徳的不確実性をナビゲートし、様々なタスクにおいて道徳的に健全な決定を可能にする。
論文 参考訳(メタデータ) (2025-02-17T19:05:55Z) - Technology as uncharted territory: Contextual integrity and the notion of AI as new ethical ground [51.85131234265026]
私は、責任と倫理的AIを促進する努力が、確立された文脈規範に対するこの軽視に必然的に貢献し、正当化することができると論じます。
私は、道徳的保護よりも道徳的革新のAI倫理における現在の狭い優先順位付けに疑問を呈する。
論文 参考訳(メタデータ) (2024-12-06T15:36:13Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Modeling Moral Choices in Social Dilemmas with Multi-Agent Reinforcement
Learning [4.2050490361120465]
ボトムアップ学習アプローチは、AIエージェントの倫理的行動の研究と開発にもっと適しているかもしれない。
本稿では,道徳理論に基づく報酬を内在的に動機づけたRLエージェントによる選択の体系的分析を行う。
我々は、異なる種類の道徳が協力、欠陥、搾取の出現に与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-20T09:36:42Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。