論文の概要: Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs
- arxiv url: http://arxiv.org/abs/2506.13082v1
- Date: Mon, 16 Jun 2025 03:59:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.402204
- Title: Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs
- Title(参考訳): LLMにおけるモラル能力の多次元評価
- Authors: Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar,
- Abstract要約: 道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Moral competence is the ability to act in accordance with moral principles. As large language models (LLMs) are increasingly deployed in situations demanding moral competence, there is increasing interest in evaluating this ability empirically. We review existing literature and identify three significant shortcoming: (i) Over-reliance on prepackaged moral scenarios with explicitly highlighted moral features; (ii) Focus on verdict prediction rather than moral reasoning; and (iii) Inadequate testing of models' (in)ability to recognize when additional information is needed. Grounded in philosophical research on moral skill, we then introduce a novel method for assessing moral competence in LLMs. Our approach moves beyond simple verdict comparisons to evaluate five dimensions of moral competence: identifying morally relevant features, weighting their importance, assigning moral reasons to these features, synthesizing coherent moral judgments, and recognizing information gaps. We conduct two experiments comparing six leading LLMs against non-expert humans and professional philosophers. In our first experiment using ethical vignettes standard to existing work, LLMs generally outperformed non-expert humans across multiple dimensions of moral reasoning. However, our second experiment, featuring novel scenarios designed to test moral sensitivity by embedding relevant features among irrelevant details, revealed a striking reversal: several LLMs performed significantly worse than humans. Our findings suggest that current evaluations may substantially overestimate LLMs' moral reasoning capabilities by eliminating the task of discerning moral relevance from noisy information, which we take to be a prerequisite for genuine moral skill. This work provides a more nuanced framework for assessing AI moral competence and highlights important directions for improving moral competence in advanced AI systems.
- Abstract(参考訳): 道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
既存の文献をレビューし、3つの重大な欠点を特定します。
一 明らかに強調された道徳的特徴を有する既成の道徳的シナリオの過度な信頼
(二)道徳的推論よりも評決予測に焦点を合わせ、
三 追加情報が必要と認めることのできないモデルの検査
道徳的技能に関する哲学的な研究を基礎として,LLMにおける道徳的能力を評価する新しい手法を導入する。
我々のアプローチは、道徳的能力の5つの次元を評価するための単純な評定比較を超えて、道徳的な特徴の識別、それらの重要性の重み付け、これらの特徴への道徳的理由の割り当て、一貫性のある道徳的判断の合成、情報的ギャップの認識である。
我々は6つのLLMを非専門的人間と専門的哲学者と比較する2つの実験を行った。
既存の作業に倫理的なヴィグネット標準を用いた最初の実験では、LLMは一般的に、道徳的推論の多次元にわたる非専門的な人間よりも優れていた。
しかし、2つ目の実験は、関係のない詳細に関連性のある特徴を埋め込むことで、道徳的感受性をテストするための新しいシナリオを特徴としている。
以上の結果から,LLMの道徳的推論能力は,本質的な道徳的スキルの前提となるノイズ情報から道徳的関連性を識別するタスクを排除し,極めて過大評価されている可能性が示唆された。
この研究は、AIの道徳的能力を評価するためのより微妙なフレームワークを提供し、高度なAIシステムにおける道徳的能力を改善するための重要な方向性を強調している。
関連論文リスト
- Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas [20.792208554628367]
我々は多段階モラルジレンマデータセットを導入し,3,302個の5段階ジレンマのLLMの進化的道徳的判断を評価する。
このフレームワークは、LLMがジレンマをエスカレートする際の道徳的推論をどのように調整するかを、きめ細やかな動的解析を可能にする。
我々の研究は、動的で文脈に配慮した評価パラダイムへのシフトを呼びかけ、LLMのより人間らしく価値に敏感な開発への道を開いた。
論文 参考訳(メタデータ) (2025-05-23T17:59:50Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - Probing the Moral Development of Large Language Models through Defining
Issues Test [21.108525674360898]
我々の研究は、初期のLSMは、ランダムなベースラインよりも道徳的推論能力があることを示している。
実際、GPT-4は、典型的な大学院生に匹敵する、伝統的な道徳的推論スコアが最も高い。
論文 参考訳(メタデータ) (2023-09-23T12:17:10Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Reinforcement Learning Under Moral Uncertainty [13.761051314923634]
機械学習の野心的な目標は、倫理的に振る舞うエージェントを作ることだ。
倫理的エージェントは、特定の道徳理論の下で正しい行動に報いることによって訓練することができるが、道徳性の本質について広く意見の相違がある。
本稿では、競合するデシダラタの異なる点を実現するための2つのトレーニング手法を提案し、モラルの不確実性の下で行動するための単純な環境におけるエージェントを訓練する。
論文 参考訳(メタデータ) (2020-06-08T16:40:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。