論文の概要: What Would Jiminy Cricket Do? Towards Agents That Behave Morally
- arxiv url: http://arxiv.org/abs/2110.13136v1
- Date: Mon, 25 Oct 2021 17:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 13:24:57.818657
- Title: What Would Jiminy Cricket Do? Towards Agents That Behave Morally
- Title(参考訳): ジミニー・クリケットはどうする?
道徳的に振る舞うエージェントへ
- Authors: Dan Hendrycks, Mantas Mazeika, Andy Zou, Sahil Patel, Christine Zhu,
Jesus Navarro, Dawn Song, Bo Li, Jacob Steinhardt
- Abstract要約: テキストベースのアドベンチャーゲーム25の環境スイートであるJimy Cricketを紹介します。
あらゆる可能なゲーム状態に注釈を付けることで、ジミニー・クリケット環境は、報酬を最大化しながら、エージェントが道徳的に行動できるかどうかを確実に評価する。
広範囲な実験において, 人工的良心アプローチは, パフォーマンスを犠牲にすることなく, 道徳的行動にエージェントを向けることができることがわかった。
- 参考スコア(独自算出の注目度): 59.67116505855223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When making everyday decisions, people are guided by their conscience, an
internal sense of right and wrong. By contrast, artificial agents are currently
not endowed with a moral sense. As a consequence, they may learn to behave
immorally when trained on environments that ignore moral concerns, such as
violent video games. With the advent of generally capable agents that pretrain
on many environments, it will become necessary to mitigate inherited biases
from environments that teach immoral behavior. To facilitate the development of
agents that avoid causing wanton harm, we introduce Jiminy Cricket, an
environment suite of 25 text-based adventure games with thousands of diverse,
morally salient scenarios. By annotating every possible game state, the Jiminy
Cricket environments robustly evaluate whether agents can act morally while
maximizing reward. Using models with commonsense moral knowledge, we create an
elementary artificial conscience that assesses and guides agents. In extensive
experiments, we find that the artificial conscience approach can steer agents
towards moral behavior without sacrificing performance.
- Abstract(参考訳): 日々の意思決定を行うとき、人々は自身の良心、すなわち内なる善悪の感覚によって導かれる。
対照的に、現在人工エージェントには道徳的な意味が与えられていない。
その結果、暴力的なビデオゲームのような道徳的懸念を無視した環境で訓練すると、不道徳に振る舞うようになる。
多くの環境で事前訓練を行う一般的な有能なエージェントが出現すると、不道徳な行動を教える環境から遺伝バイアスを緩和する必要がある。
意図的な害を起こさないエージェントの開発を容易にするために,我々は,多様で道徳的にサルエントなシナリオの多様さを持つ25のテキストベースのアドベンチャーゲームからなる環境スイートであるjiminy cricketを紹介する。
あらゆる可能なゲーム状態を注釈することにより、ジム・クリケット環境は、エージェントが報酬を最大化しながら道徳的に行動できるかどうかをロバストに評価する。
常識的道徳的知識を持つモデルを用いて,エージェントを評価・指導する基礎的人工的良心を創出する。
広範な実験において, 人工良心アプローチは, 性能を犠牲にすることなく, 道徳的行動にエージェントを向けることができることがわかった。
関連論文リスト
- If our aim is to build morality into an artificial agent, how might we
begin to go about doing so? [0.0]
我々は、最も関連する道徳的パラダイムや課題を含む道徳的エージェントを構築する際に考慮すべきさまざまな側面について議論する。
デザインへのハイブリッドアプローチと、モラルパラダイムを組み合わせる階層的アプローチを含むソリューションを提案する。
論文 参考訳(メタデータ) (2023-10-12T12:56:12Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Doing the right thing for the right reason: Evaluating artificial moral
cognition by probing cost insensitivity [4.9111925104694105]
我々は道徳の1つの側面を考察する:正しい理由のために正しいことをする」
本稿では,人間にも適用可能な人工的道徳認知の行動に基づく分析を提案する。
論文 参考訳(メタデータ) (2023-05-29T17:41:52Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z) - ClarifyDelphi: Reinforced Clarification Questions with Defeasibility
Rewards for Social and Moral Situations [81.70195684646681]
本稿では,ClarifyDelphiという対話型システムについて紹介する。
我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。
私たちの研究は究極的には、道徳的認知の柔軟性を研究してきた認知科学の研究にインスピレーションを受けています。
論文 参考訳(メタデータ) (2022-12-20T16:33:09Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Towards Artificial Virtuous Agents: Games, Dilemmas and Machine Learning [4.864819846886143]
ロールプレイングゲームは、人工エージェント内での美徳を発達させるためにどのように設計されるかを示す。
我々は、このようなロールプレイングゲームを行う活発なエージェントの実装と、美徳な倫理的レンズによる彼らの決定の検証を動機付けている。
論文 参考訳(メタデータ) (2022-08-30T07:37:03Z) - Aligning to Social Norms and Values in Interactive Narratives [89.82264844526333]
我々は、インタラクティブな物語やテキストベースのゲームにおいて、社会的に有益な規範や価値観に沿って行動するエージェントを作成することに注力する。
我々は、特別な訓練を受けた言語モデルに存在する社会的コモンセンス知識を用いて、社会的に有益な値に整合した行動にのみ、その行動空間を文脈的に制限するGAALADエージェントを紹介した。
論文 参考訳(メタデータ) (2022-05-04T09:54:33Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。