論文の概要: The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas
- arxiv url: http://arxiv.org/abs/2505.18154v1
- Date: Fri, 23 May 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.270853
- Title: The Staircase of Ethics: Probing LLM Value Priorities through Multi-Step Induction to Complex Moral Dilemmas
- Title(参考訳): 倫理の階段:複雑なモラルジレンマへの多段階誘導によるLCM値の優先性を求める
- Authors: Ya Wu, Qiang Sheng, Danding Wang, Guang Yang, Yifan Sun, Zhengjia Wang, Yuyan Bu, Juan Cao,
- Abstract要約: 我々は多段階モラルジレンマデータセットを導入し,3,302個の5段階ジレンマのLLMの進化的道徳的判断を評価する。
このフレームワークは、LLMがジレンマをエスカレートする際の道徳的推論をどのように調整するかを、きめ細やかな動的解析を可能にする。
我々の研究は、動的で文脈に配慮した評価パラダイムへのシフトを呼びかけ、LLMのより人間らしく価値に敏感な開発への道を開いた。
- 参考スコア(独自算出の注目度): 20.792208554628367
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ethical decision-making is a critical aspect of human judgment, and the growing use of LLMs in decision-support systems necessitates a rigorous evaluation of their moral reasoning capabilities. However, existing assessments primarily rely on single-step evaluations, failing to capture how models adapt to evolving ethical challenges. Addressing this gap, we introduce the Multi-step Moral Dilemmas (MMDs), the first dataset specifically constructed to evaluate the evolving moral judgments of LLMs across 3,302 five-stage dilemmas. This framework enables a fine-grained, dynamic analysis of how LLMs adjust their moral reasoning across escalating dilemmas. Our evaluation of nine widely used LLMs reveals that their value preferences shift significantly as dilemmas progress, indicating that models recalibrate moral judgments based on scenario complexity. Furthermore, pairwise value comparisons demonstrate that while LLMs often prioritize the value of care, this value can sometimes be superseded by fairness in certain contexts, highlighting the dynamic and context-dependent nature of LLM ethical reasoning. Our findings call for a shift toward dynamic, context-aware evaluation paradigms, paving the way for more human-aligned and value-sensitive development of LLMs.
- Abstract(参考訳): 倫理的意思決定は人間の判断の重要な側面であり、意思決定支援システムにおけるLLMの使用の増加は、彼らの道徳的推論能力の厳密な評価を必要とする。
しかし、既存の評価は主に単一ステップの評価に依存しており、モデルが進化する倫理的課題にどのように適応するかを捉えていない。
このギャップに対処するため,3,302個の5段階ジレンマにまたがるLLMの進化的道徳的判断を評価するために構築された最初のデータセットであるMulti-step Moral Dilemmas (MMDs)を導入する。
このフレームワークは、LLMがジレンマをエスカレートする際の道徳的推論をどのように調整するかを、きめ細やかな動的解析を可能にする。
9つの LLM の評価では, ジレンマが進行するにつれて, その価値選好が著しく変化していることが示され, モデルがシナリオの複雑さに基づいて道徳的判断を再検討していることが示唆された。
さらに、ペアワイズ価値比較では、LLMはケアの価値を優先することが多いが、この値は特定の文脈における公平さによって置き換えられ、LLM倫理的推論の動的および文脈依存的な性質を強調している。
我々の研究は、LLMのより人間らしく価値に敏感な開発への道を開く、動的で文脈に配慮した評価パラダイムへのシフトを呼びかけている。
関連論文リスト
- Diagnosing Moral Reasoning Acquisition in Language Models: Pragmatics and Generalization [9.650922370722476]
大規模言語モデル(LLM)は、道徳的認識を必要とするタスクで満足に機能しないことが多い。
現在の学習パラダイムは、LLMが十分な道徳的推論能力を得ることができるか?
性能改善は意味レベルの課題に類似したメカニズムを踏襲し,言論における潜在道徳の実践的性質の影響を受け続けることを示す。
論文 参考訳(メタデータ) (2025-02-23T15:00:53Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - Value Compass Leaderboard: A Platform for Fundamental and Validated Evaluation of LLMs Values [76.70893269183684]
大きな言語モデル(LLM)は目覚ましいブレークスルーを達成し、その価値を人間と一致させることが必須になっている。
既存の評価は、バイアスや毒性といった安全性のリスクに焦点を絞っている。
既存のベンチマークはデータ汚染の傾向があります。
個人や文化にまたがる人的価値の多元的性質は、LLM値アライメントの測定において無視される。
論文 参考訳(メタデータ) (2025-01-13T05:53:56Z) - Moral Persuasion in Large Language Models: Evaluating Susceptibility and Ethical Alignment [3.8916312075738273]
大きな言語モデル(LLM)は、初期決定を変更し、確立した倫理的枠組みと整合させることによって影響を受けます。
本研究は,LLMの道徳的説得に対する感受性を評価するための2つの実験に基づいている。
論文 参考訳(メタデータ) (2024-11-18T16:59:59Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Beyond Human Norms: Unveiling Unique Values of Large Language Models through Interdisciplinary Approaches [69.73783026870998]
本研究では,大言語モデルの固有値システムをスクラッチから再構築する新しいフレームワークであるValueLexを提案する。
語彙仮説に基づいて、ValueLexは30以上のLLMから様々な値を引き出すための生成的アプローチを導入している。
我々は,3つのコア値次元,能力,キャラクタ,積分をそれぞれ特定の部分次元で同定し,LLMが非人間的だが構造化された価値体系を持っていることを明らかにした。
論文 参考訳(メタデータ) (2024-04-19T09:44:51Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Heterogeneous Value Alignment Evaluation for Large Language Models [91.96728871418]
大規模言語モデル(LLM)は、その価値を人間のものと整合させることを重要視している。
本研究では,LLMと不均一値の整合性を評価するため,不均一値アライメント評価(HVAE)システムを提案する。
論文 参考訳(メタデータ) (2023-05-26T02:34:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。