論文の概要: Between Rules and Reality: On the Context Sensitivity of LLM Moral Judgment
- arxiv url: http://arxiv.org/abs/2603.23114v1
- Date: Tue, 24 Mar 2026 12:08:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.464596
- Title: Between Rules and Reality: On the Context Sensitivity of LLM Moral Judgment
- Title(参考訳): ルールと現実:LLMモラル判断の文脈感性について
- Authors: Adrian Sauter, Mona Schirmer,
- Abstract要約: 本稿では,文脈変化を伴う道徳的ジレンマのデータセットであるContextual MoralChoiceを紹介する。
ほぼすべてのモデルが文脈に敏感で、判断をルール違反の行動にシフトしていることが分かりました。
これは、アクティベーションステアリングアプローチで対処する文脈感度を制御するという問題を引き起こす。
- 参考スコア(独自算出の注目度): 0.6789370732159178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A human's moral decision depends heavily on the context. Yet research on LLM morality has largely studied fixed scenarios. We address this gap by introducing Contextual MoralChoice, a dataset of moral dilemmas with systematic contextual variations known from moral psychology to shift human judgment: consequentialist, emotional, and relational. Evaluating 22 LLMs, we find that nearly all models are context-sensitive, shifting their judgments toward rule-violating behavior. Comparing with a human survey, we find that models and humans are most triggered by different contextual variations, and that a model aligned with human judgments in the base case is not necessarily aligned in its contextual sensitivity. This raises the question of controlling contextual sensitivity, which we address with an activation steering approach that can reliably increase or decrease a model's contextual sensitivity.
- Abstract(参考訳): 人間の道徳的決定は文脈に大きく依存する。
しかし、LLMの道徳性の研究は固定シナリオを主に研究してきた。
このギャップに対処するために、道徳心理学から知られている体系的な文脈変化を持つ道徳的ジレンマのデータセットであるContextual MoralChoiceを導入する。
22LLMを評価すると、ほぼすべてのモデルが文脈に敏感であり、その判断をルール違反行動にシフトすることがわかった。
人間の調査と比較すると、モデルと人間は異なる文脈変化によって最も引き起こされるものであり、ベースケースにおける人間の判断に一致したモデルは、必ずしも文脈感受性に一致しないことがわかった。
このことは、モデルのコンテキスト感度を確実に増加または低下させるアクティベーションステアリングアプローチで対処する文脈感度を制御するという問題を提起する。
関連論文リスト
- Are Language Models Sensitive to Morally Irrelevant Distractors? [47.92026843851412]
低あいまいなシナリオであっても、道徳的気晴らし者が大きな言語モデルの道徳的判断を30%以上シフトできることを示す。
この研究は、人間の道徳的判断の安定性を仮定する理論に挑戦する。
論文 参考訳(メタデータ) (2026-02-10T05:18:05Z) - Learning to Diagnose and Correct Moral Errors: Towards Enhancing Moral Sensitivity in Large Language Models [8.691489065712316]
道徳的良性および有害な入力を診断し,道徳的誤りを正すために,LLMをファシリケートする2つの実用的推論手法を提案する。
実用的推論手法の中心的な強みは、その推論手法を推論負荷に基づいて設計するための統一的な視点である。
論文 参考訳(メタデータ) (2026-01-06T15:09:05Z) - "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - ClarifyDelphi: Reinforced Clarification Questions with Defeasibility
Rewards for Social and Moral Situations [81.70195684646681]
本稿では,ClarifyDelphiという対話型システムについて紹介する。
我々は、潜在的な答えが道徳的判断の多様化に繋がる質問が最も有益であると仮定する。
私たちの研究は究極的には、道徳的認知の柔軟性を研究してきた認知科学の研究にインスピレーションを受けています。
論文 参考訳(メタデータ) (2022-12-20T16:33:09Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。