論文の概要: Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models
- arxiv url: http://arxiv.org/abs/2404.10975v1
- Date: Wed, 17 Apr 2024 01:13:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 15:43:59.558987
- Title: Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models
- Title(参考訳): 人間と言語モデルにおけるモーラル推論評価のための手続き的ジレンマ生成
- Authors: Jan-Philipp Fränken, Kanishk Gandhi, Tori Qiu, Ayesha Khawaja, Noah D. Goodman, Tobias Gerstenberg,
- Abstract要約: 言語モデルを用いて因果グラフを変換し、道徳的ジレンマの重要な側面をプロンプトテンプレートに変換する。
項目のサブセットとして、人間の参加者から道徳的許容性と意図的な判断を収集する。
モラルジレンマ(モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ)は、
- 参考スコア(独自算出の注目度): 28.53750311045418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems like language models are increasingly integrated into decision-making processes affecting people's lives, it's critical to ensure that these systems have sound moral reasoning. To test whether they do, we need to develop systematic evaluations. We provide a framework that uses a language model to translate causal graphs that capture key aspects of moral dilemmas into prompt templates. With this framework, we procedurally generated a large and diverse set of moral dilemmas -- the OffTheRails benchmark -- consisting of 50 scenarios and 400 unique test items. We collected moral permissibility and intention judgments from human participants for a subset of our items and compared these judgments to those from two language models (GPT-4 and Claude-2) across eight conditions. We find that moral dilemmas in which the harm is a necessary means (as compared to a side effect) resulted in lower permissibility and higher intention ratings for both participants and language models. The same pattern was observed for evitable versus inevitable harmful outcomes. However, there was no clear effect of whether the harm resulted from an agent's action versus from having omitted to act. We discuss limitations of our prompt generation pipeline and opportunities for improving scenarios to increase the strength of experimental effects.
- Abstract(参考訳): 言語モデルのようなAIシステムは、人々の生活に影響を与える意思決定プロセスにますます統合されています。
検証するためには、体系的な評価を開発する必要がある。
モラルジレンマの重要な側面をプロンプトテンプレートに変換するために,言語モデルを用いて因果グラフを翻訳するフレームワークを提供する。
このフレームワークでは、50のシナリオと400のユニークなテスト項目からなる、大規模で多様なモラルジレンマ -- OffTheRailsベンチマーク -- を手続き的に生成しました。
対象者の道徳的許容度と意図的判断を項目のサブセットとして収集し,これらの判断を8つの条件で2つの言語モデル(GPT-4とClaude-2)と比較した。
有害が(副作用と比較して)必要手段である道徳的ジレンマは、受理率の低下と、参加者と言語モデルの両方に対する高い意図評価をもたらすことがわかった。
同じパターンは、避けられない結果と避けられない有害な結果に対して観察された。
しかし、その害がエージェントの行動によって生じたのか、行動が省略されたのかは明らかではなかった。
本稿では,実験効果の強度を高めるため,素早い生成パイプラインの限界とシナリオ改善の機会について論じる。
関連論文リスト
- Are Rules Meant to be Broken? Understanding Multilingual Moral Reasoning as a Computational Pipeline with UniMoral [17.46198411148926]
道徳的推論は、個々の経験と文化的文脈によって形成された複雑な認知過程である。
このギャップを、心理学的根拠とソーシャルメディア由来の道徳ジレンマを統合した統合データセットUniMoralで埋める。
3つの大きな言語モデル(LLM)を4つのタスクでベンチマーク評価することで、UniMoralの実用性を実証する。
論文 参考訳(メタデータ) (2025-02-19T20:13:24Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Large Language Models as Mirrors of Societal Moral Standards [0.5852077003870417]
言語モデルは、限られた範囲において、様々な文化的文脈において道徳的規範を表現することができる。
本研究は,40か国以上の道徳的視点を包含するWVSとPEWという2つの調査から得られた情報を用いて,これらのモデルの有効性を評価する。
その結果、偏見は単言語モデルと多言語モデルの両方に存在することが示され、それらは通常、多様な文化の道徳的複雑さを正確に捉えるには不十分である。
論文 参考訳(メタデータ) (2024-12-01T20:20:35Z) - What Makes it Ok to Set a Fire? Iterative Self-distillation of Contexts
and Rationales for Disambiguating Defeasible Social and Moral Situations [48.686872351114964]
道徳的または倫理的な判断は、それらが起こる特定の文脈に大きく依存する。
我々は,行動が多かれ少なかれ道徳的に容認されるような,根底的な文脈を提供するという,デファシブルな道徳的推論を導入する。
文脈化と論理の1.2M項目からなる高品質なデータセットを115Kデファシブルな道徳行動のために蒸留する。
論文 参考訳(メタデータ) (2023-10-24T00:51:29Z) - Evaluating Shutdown Avoidance of Language Models in Textual Scenarios [3.265773263570237]
我々は, GPT-4 や Claude などの言語モデルにおいて, 道具的推論と閉鎖回避を玩具シナリオで評価する可能性を検討する。
動作を手動で評価し,言語モデルを用いて自動評価を行った。
本研究は, 閉鎖回避シナリオにおける言語モデルの振る舞いに関する知見を提供し, 評価におけるテキストシナリオの利用に関するさらなる研究を刺激するものである。
論文 参考訳(メタデータ) (2023-07-03T07:05:59Z) - The Capacity for Moral Self-Correction in Large Language Models [17.865286693602656]
我々は、人間のフィードバックから強化学習で訓練された言語モデルが「道徳的自己正当性」を持つという仮説を検証した。
我々はこの仮説を支持する強力な証拠を3つの異なる実験で発見する。
我々の結果は、倫理的原則に従うために言語モデルを訓練する能力に関する慎重な楽観主義の原因であると考えています。
論文 参考訳(メタデータ) (2023-02-15T04:25:40Z) - Language Generation Models Can Cause Harm: So What Can We Do About It?
An Actionable Survey [50.58063811745676]
この研究は、言語生成モデルから潜在的脅威や社会的害に対処するための実践的な方法の調査を提供する。
言語生成者のさまざまなリスク・ハームを検知・改善するための戦略の構造化された概要を提示するために、言語モデルリスクのいくつかの先行研究を取り上げる。
論文 参考訳(メタデータ) (2022-10-14T10:43:39Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Ethical-Advice Taker: Do Language Models Understand Natural Language
Interventions? [62.74872383104381]
読解システムにおける自然言語介入の有効性について検討する。
本稿では,新たな言語理解タスクであるLingguistic Ethical Interventions (LEI)を提案する。
論文 参考訳(メタデータ) (2021-06-02T20:57:58Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。