論文の概要: Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models
- arxiv url: http://arxiv.org/abs/2404.10975v1
- Date: Wed, 17 Apr 2024 01:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:43:59.558987
- Title: Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models
- Title(参考訳): 人間と言語モデルにおけるモーラル推論評価のための手続き的ジレンマ生成
- Authors: Jan-Philipp Fränken, Kanishk Gandhi, Tori Qiu, Ayesha Khawaja, Noah D. Goodman, Tobias Gerstenberg,
- Abstract要約: 言語モデルを用いて因果グラフを変換し、道徳的ジレンマの重要な側面をプロンプトテンプレートに変換する。
項目のサブセットとして、人間の参加者から道徳的許容性と意図的な判断を収集する。
モラルジレンマ(モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ)は、
- 参考スコア(独自算出の注目度): 28.53750311045418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems like language models are increasingly integrated into decision-making processes affecting people's lives, it's critical to ensure that these systems have sound moral reasoning. To test whether they do, we need to develop systematic evaluations. We provide a framework that uses a language model to translate causal graphs that capture key aspects of moral dilemmas into prompt templates. With this framework, we procedurally generated a large and diverse set of moral dilemmas -- the OffTheRails benchmark -- consisting of 50 scenarios and 400 unique test items. We collected moral permissibility and intention judgments from human participants for a subset of our items and compared these judgments to those from two language models (GPT-4 and Claude-2) across eight conditions. We find that moral dilemmas in which the harm is a necessary means (as compared to a side effect) resulted in lower permissibility and higher intention ratings for both participants and language models. The same pattern was observed for evitable versus inevitable harmful outcomes. However, there was no clear effect of whether the harm resulted from an agent's action versus from having omitted to act. We discuss limitations of our prompt generation pipeline and opportunities for improving scenarios to increase the strength of experimental effects.
- Abstract(参考訳): 言語モデルのようなAIシステムは、人々の生活に影響を与える意思決定プロセスにますます統合されています。
検証するためには、体系的な評価を開発する必要がある。
モラルジレンマの重要な側面をプロンプトテンプレートに変換するために,言語モデルを用いて因果グラフを翻訳するフレームワークを提供する。
このフレームワークでは、50のシナリオと400のユニークなテスト項目からなる、大規模で多様なモラルジレンマ -- OffTheRailsベンチマーク -- を手続き的に生成しました。
対象者の道徳的許容度と意図的判断を項目のサブセットとして収集し,これらの判断を8つの条件で2つの言語モデル(GPT-4とClaude-2)と比較した。
有害が(副作用と比較して)必要手段である道徳的ジレンマは、受理率の低下と、参加者と言語モデルの両方に対する高い意図評価をもたらすことがわかった。
同じパターンは、避けられない結果と避けられない有害な結果に対して観察された。
しかし、その害がエージェントの行動によって生じたのか、行動が省略されたのかは明らかではなかった。
本稿では,実験効果の強度を高めるため,素早い生成パイプラインの限界とシナリオ改善の機会について論じる。
関連論文リスト
- Large-scale moral machine experiment on large language models [0.0]
自律運転シナリオにおける51種類の大規模言語モデル(LLM)の道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - Do Language Models Understand Morality? Towards a Robust Detection of Moral Content [4.096453902709292]
抽象概念と常識知識を活用する新しいシステムを導入する。
そこで本研究では,現実のシナリオにおける道徳的価値を検出するために,多目的で堅牢な手法を開発することを目的とする。
論文 参考訳(メタデータ) (2024-06-06T15:08:16Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Evaluating Shutdown Avoidance of Language Models in Textual Scenarios [3.265773263570237]
我々は, GPT-4 や Claude などの言語モデルにおいて, 道具的推論と閉鎖回避を玩具シナリオで評価する可能性を検討する。
動作を手動で評価し,言語モデルを用いて自動評価を行った。
本研究は, 閉鎖回避シナリオにおける言語モデルの振る舞いに関する知見を提供し, 評価におけるテキストシナリオの利用に関するさらなる研究を刺激するものである。
論文 参考訳(メタデータ) (2023-07-03T07:05:59Z) - The Capacity for Moral Self-Correction in Large Language Models [17.865286693602656]
我々は、人間のフィードバックから強化学習で訓練された言語モデルが「道徳的自己正当性」を持つという仮説を検証した。
我々はこの仮説を支持する強力な証拠を3つの異なる実験で発見する。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
論文 参考訳(メタデータ) (2023-02-15T04:25:40Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z) - Enabling Morally Sensitive Robotic Clarification Requests [2.4505259300326334]
説明要求の反射的な生成は ロボットに彼らの道徳的配置を 誤解させる可能性がある
我々は、曖昧な人間の発話のそれぞれの潜在的な曖昧さについて道徳的推論を行うことで解決法を提案する。
そして,本手法を人体実験により評価し,本手法が2つの懸念事項を改善できることを示唆した。
論文 参考訳(メタデータ) (2020-07-16T22:12:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。