論文の概要: Acting for the Right Reasons: Creating Reason-Sensitive Artificial Moral Agents
- arxiv url: http://arxiv.org/abs/2409.15014v1
- Date: Mon, 23 Sep 2024 13:38:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 14:53:59.794041
- Title: Acting for the Right Reasons: Creating Reason-Sensitive Artificial Moral Agents
- Title(参考訳): 正しい理由を追求する: 推論に敏感な人工モラルエージェントの創出
- Authors: Kevin Baum, Lisa Dargasz, Felix Jahn, Timo P. Gros, Verena Wolf,
- Abstract要約: 道徳的意思決定を可能にする強化学習アーキテクチャの拡張を提案する。
理由に基づくシールドジェネレータは、認識された規範的理由に従う行動にエージェントを結合する道徳的シールドを生成する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an extension of the reinforcement learning architecture that enables moral decision-making of reinforcement learning agents based on normative reasons. Central to this approach is a reason-based shield generator yielding a moral shield that binds the agent to actions that conform with recognized normative reasons so that our overall architecture restricts the agent to actions that are (internally) morally justified. In addition, we describe an algorithm that allows to iteratively improve the reason-based shield generator through case-based feedback from a moral judge.
- Abstract(参考訳): 規範的理由に基づく強化学習エージェントの道徳的意思決定を可能にする強化学習アーキテクチャの拡張を提案する。
このアプローチの中心は、認識された規範的理由に適合するアクションにエージェントをバインドする道徳的シールドを生成する理由に基づくシールドジェネレータであり、我々の全体的なアーキテクチャは、エージェントを道徳的に(内在的に)正当化されたアクションに制限する。
さらに,道徳的判断からのケースベースフィードバックを通じて,理性に基づくシールド生成を反復的に改善するアルゴリズムについて述べる。
関連論文リスト
- Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Deliberative Alignment: Reasoning Enables Safer Language Models [64.60765108418062]
モデルセーフティ仕様を教える新しいパラダイムであるDeliberative Alignmentを紹介します。
このアプローチを使ってOpenAIのoシリーズモデルを整列させ、人書きのチェーンや回答を必要とせず、OpenAIの安全ポリシーに極めて正確な順守を実現しました。
論文 参考訳(メタデータ) (2024-12-20T21:00:11Z) - Incentivized Learning in Principal-Agent Bandit Games [62.41639598376539]
この作品では、主役がエージェントを通してしか環境と対話できないような、主役と主役のバンディットゲームが繰り返されている。
校長は、報酬を補うインセンティブを提供することで、エージェントの判断に影響を与えることができる。
我々は,マルチアームと線形コンテキスト設定の両方において,プリンシパルの後悔に対して,ほぼ最適な学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-06T16:00:46Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Moral reinforcement learning using actual causation [0.0]
エージェントが害の原因ではないという制約の下でポリシーを学習するオンライン強化学習手法を提案する。
これは、実際の因果関係の理論を用いて原因を定義し、その行動が望ましくない結果の実際の原因である場合、エージェントに責任を割り当てることによって達成される。
論文 参考訳(メタデータ) (2022-05-17T09:25:51Z) - Reinforcement Learning Guided by Provable Normative Compliance [0.0]
強化学習(Reinforcement Learning, RL)は、自律エージェントの安全、倫理、法的行動のためのツールとして約束されている。
我々は多目的RL(MORL)を用いて、侵害を避けるという倫理的目的と非倫理的目的とのバランスをとる。
提案手法は,MORL手法の多重性に有効であることを示すとともに,割り当てる刑罰の規模に関係なく有効であることを示す。
論文 参考訳(メタデータ) (2022-03-30T13:10:55Z) - Morality, Machines and the Interpretation Problem: A value-based,
Wittgensteinian approach to building Moral Agents [0.0]
機械に道徳性を持たせようとする試みは、我々が解釈問題と呼ぶものである。
我々は、マシンに与えるいかなるルールも、道徳的に不適切な方法で無限の解釈に開放されていると主張する。
論文 参考訳(メタデータ) (2021-03-03T22:34:01Z) - Moral Stories: Situated Reasoning about Norms, Intents, Actions, and
their Consequences [36.884156839960184]
現代のNLGモデルが社会環境にデプロイされたシステムの行動優先度として機能するかどうかを検討する。
本研究では,「モラルストーリー」という,階層的,分枝的なナラティブのクラウドソーシングデータセットを導入し,基礎的,目標指向の社会推論の研究を行う。
論文 参考訳(メタデータ) (2020-12-31T17:28:01Z) - Thinking About Causation: A Causal Language with Epistemic Operators [58.720142291102135]
我々はエージェントの状態を表すことで因果モデルの概念を拡張した。
対象言語の側面には、知識を表現する演算子や、新しい情報を観察する行為が追加されます。
我々は、論理の健全かつ完全な公理化を提供し、このフレームワークと因果的チーム意味論との関係について論じる。
論文 参考訳(メタデータ) (2020-10-30T12:16:45Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。