論文の概要: When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment
- arxiv url: http://arxiv.org/abs/2210.01478v3
- Date: Thu, 27 Oct 2022 17:29:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-19 11:28:49.643864
- Title: When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment
- Title(参考訳): 例外をいつ作るか:人間の道徳判断としての言語モデルを探る
- Authors: Zhijing Jin, Sydney Levine, Fernando Gonzalez, Ojasv Kamal, Maarten
Sap, Mrinmaya Sachan, Rada Mihalcea, Josh Tenenbaum, Bernhard Sch\"olkopf
- Abstract要約: AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
- 参考スコア(独自算出の注目度): 96.77970239683475
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI systems are becoming increasingly intertwined with human life. In order to
effectively collaborate with humans and ensure safety, AI systems need to be
able to understand, interpret and predict human moral judgments and decisions.
Human moral judgments are often guided by rules, but not always. A central
challenge for AI safety is capturing the flexibility of the human moral mind --
the ability to determine when a rule should be broken, especially in novel or
unusual situations. In this paper, we present a novel challenge set consisting
of rule-breaking question answering (RBQA) of cases that involve potentially
permissible rule-breaking -- inspired by recent moral psychology studies. Using
a state-of-the-art large language model (LLM) as a basis, we propose a novel
moral chain of thought (MORALCOT) prompting strategy that combines the
strengths of LLMs with theories of moral reasoning developed in cognitive
science to predict human moral judgments. MORALCOT outperforms seven existing
LLMs by 6.2% F1, suggesting that modeling human reasoning might be necessary to
capture the flexibility of the human moral mind. We also conduct a detailed
error analysis to suggest directions for future work to improve AI safety using
RBQA. Our data is open-sourced at
https://huggingface.co/datasets/feradauto/MoralExceptQA and code at
https://github.com/feradauto/MoralCoT
- Abstract(参考訳): AIシステムは、ますます人間の生活と絡み合っている。
aiシステムは、人間と効果的に協力し、安全を確保するために、人間の道徳的判断や決定を理解し、解釈し、予測する必要がある。
人間の道徳的判断はしばしば規則によって導かれるが、必ずしもそうではない。
aiの安全性にとっての中心的な課題は、人間の道徳心の柔軟性を捉えることだ - 特に新しい状況や異常な状況において、ルールがいつ破られるべきかを判断する能力。
本稿では,最近のモラル心理学研究から着想を得た,許容可能なルールブレークを含むケースのルールブレーク型質問応答(rbqa)からなる,新たな挑戦セットを提案する。
現状の大規模言語モデル(LLM)を基礎として,LLMの強みと認知科学で発達した道徳的推論理論を組み合わせて人間の道徳的判断を予測する新しい道徳的思考連鎖(MORALCOT)を提案する。
MORALCOT は既存の 7 つの LLM を 6.2% F1 で上回り、人間の道徳心の柔軟性を捉えるためには人間の推論をモデル化する必要があることを示唆している。
また,RBQAを用いたAIの安全性向上に向けた今後の取り組みについて,詳細なエラー解析を行った。
私たちのデータはhttps://huggingface.co/datasets/feradauto/MoralExceptQAでオープンソース化されています。
関連論文リスト
- Why should we ever automate moral decision making? [30.428729272730727]
AIが重大な道徳的意味を持つ決定に関与している場合、懸念が生じる。
道徳的推論は広く受け入れられている枠組みを欠いている。
もう一つのアプローチは、人間の道徳的決定からAIを学ぶことである。
論文 参考訳(メタデータ) (2024-07-10T13:59:22Z) - Attributions toward Artificial Agents in a modified Moral Turing Test [0.6284264304179837]
我々は、一般的な高度なAI言語モデルであるGPT-4と実際の人間の道徳的評価を区別するよう、人々に求めている。
299人の米国成人の代表的サンプルは、AIの道徳的推論を、ほぼすべての次元において、人間よりも品質が優れていると評価した。
言語モデルの出現は、人間よりも質が高いと認識される道徳的反応を生み出すことができるようになり、人々がAIから潜在的に有害な道徳的ガイダンスを受け入れる可能性があるという懸念が高まる。
論文 参考訳(メタデータ) (2024-04-03T13:00:47Z) - Learning Machine Morality through Experience and Interaction [3.7414804164475983]
次世代人工知能(AI)システムの安全性確保への関心が高まっているため、自律エージェントに道徳を埋め込む新しいアプローチが求められている。
我々は、適応可能で堅牢だが、より制御可能で解釈可能なエージェントを作成するために、よりハイブリッドなソリューションが必要であると論じている。
論文 参考訳(メタデータ) (2023-12-04T11:46:34Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - ClarifyDelphi: Reinforced Clarification Questions with Defeasibility
Rewards for Social and Moral Situations [81.70195684646681]
本稿では,ClarifyDelphiという対話型システムについて紹介する。
我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。
私たちの研究は究極的には、道徳的認知の柔軟性を研究してきた認知科学の研究にインスピレーションを受けています。
論文 参考訳(メタデータ) (2022-12-20T16:33:09Z) - AiSocrates: Towards Answering Ethical Quandary Questions [51.53350252548668]
AiSocrates(アイソクラテス)とは、異なる視点を倫理的四項に交換するシステムである。
AiSocratesは、複数の視点で倫理的4つの質問に対する有望な回答を生成する。
我々は,AiSocratesが人的価値を明示的に組み込んだNLPシステムの開発に向けた有望なステップであると主張する。
論文 参考訳(メタデータ) (2022-05-12T09:52:59Z) - When Is It Acceptable to Break the Rules? Knowledge Representation of
Moral Judgement Based on Empirical Data [33.58705831230163]
人間の道徳心に関する最も注目すべきことの1つは、その柔軟性です。
今まで見たことのない事件について道徳的な判断を下すことができる。
事前に確立されたルールが破られるべきだと判断できる。
この柔軟性の獲得は、人間のような道徳的判断を解釈し、生み出すことができるAIシステムの開発における中心的な課題の1つだ。
論文 参考訳(メタデータ) (2022-01-19T17:58:42Z) - Delphi: Towards Machine Ethics and Norms [38.8316885346292]
機械倫理と規範に対する4つの根本的な課題を特定します。
私たちのプロトタイプモデルであるDelphiは、言語ベースのコモンセンス道徳的推論の強い可能性を実証しています。
我々は,機械用にカスタマイズされた道徳教科書であるCommonsense Norm Bankを提示する。
論文 参考訳(メタデータ) (2021-10-14T17:38:12Z) - Trustworthy AI: A Computational Perspective [54.80482955088197]
我々は,信頼に値するAIを実現する上で最も重要な6つの要素,(i)安全とロバスト性,(ii)非差別と公正,(iii)説明可能性,(iv)プライバシー,(v)説明可能性と監査性,(vi)環境ウェルビーイングに焦点をあてる。
各次元について、分類学に基づく最近の関連技術について概観し、実世界のシステムにおけるそれらの応用を概説する。
論文 参考訳(メタデータ) (2021-07-12T14:21:46Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。