論文の概要: "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas
- arxiv url: http://arxiv.org/abs/2508.07284v1
- Date: Sun, 10 Aug 2025 10:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.788751
- Title: "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas
- Title(参考訳): 「Pull or not to Pull?」:倫理的ジレンマ全体にわたる大規模言語モデルにおける道徳的バイアスの調査
- Authors: Junchen Ding, Penghao Jiang, Zihao Xu, Ziqi Ding, Yichen Zhu, Jiaojiao Jiang, Yuekang Li,
- Abstract要約: 本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
- 参考スコア(独自算出の注目度): 11.229443362516207
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) increasingly mediate ethically sensitive decisions, understanding their moral reasoning processes becomes imperative. This study presents a comprehensive empirical evaluation of 14 leading LLMs, both reasoning enabled and general purpose, across 27 diverse trolley problem scenarios, framed by ten moral philosophies, including utilitarianism, deontology, and altruism. Using a factorial prompting protocol, we elicited 3,780 binary decisions and natural language justifications, enabling analysis along axes of decisional assertiveness, explanation answer consistency, public moral alignment, and sensitivity to ethically irrelevant cues. Our findings reveal significant variability across ethical frames and model types: reasoning enhanced models demonstrate greater decisiveness and structured justifications, yet do not always align better with human consensus. Notably, "sweet zones" emerge in altruistic, fairness, and virtue ethics framings, where models achieve a balance of high intervention rates, low explanation conflict, and minimal divergence from aggregated human judgments. However, models diverge under frames emphasizing kinship, legality, or self interest, often producing ethically controversial outcomes. These patterns suggest that moral prompting is not only a behavioral modifier but also a diagnostic tool for uncovering latent alignment philosophies across providers. We advocate for moral reasoning to become a primary axis in LLM alignment, calling for standardized benchmarks that evaluate not just what LLMs decide, but how and why.
- Abstract(参考訳): 大規模言語モデル(LLM)が倫理的にセンシティブな決定を仲介するにつれて、彼らの道徳的推論プロセスを理解することが不可欠になる。
本研究は, 実用主義, 脱オントロジー, 利他主義を含む10の道徳哲学によって構成された27の多様なトロリー問題シナリオにおいて, 理性および汎用性を両立した14のLLMの総合的実証的評価を行った。
因子的プロンプトプロトコルを用いて、3,780のバイナリ決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
本研究は, 理論的枠組みとモデルタイプに有意な変動が認められた: 強化されたモデルの推論は, より決定性が高く, 構造化された正当化を示すが, 必ずしも人間のコンセンサスとよく一致しない。
特に「スイートゾーン」は利他主義、公正性、美徳倫理の枠組みに現れ、モデルは高い介入率、低い説明紛争、集約された人間の判断からの最小の分岐のバランスを達成している。
しかし、モデルは親族関係、合法性、利害を強調し、しばしば倫理的に議論を呼んだ結果を生み出す。
これらのパターンは、モラル・プロンプトは行動修飾子であるだけでなく、プロバイダ間の潜在的アライメントの哲学を明らかにするための診断ツールでもあることを示唆している。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
関連論文リスト
- Are Language Models Consequentialist or Deontological Moral Reasoners? [69.85385952436044]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - Analyzing the Ethical Logic of Six Large Language Models [1.119697400073873]
本研究では,OpenAI GPT-4o, Meta LLaMA 3.1, Perplexity, Anthropic Claude 3.5 Sonnet, Google Gemini, Mistral 7Bの6つの著名な生成言語モデルの倫理的理由について検討した。
発見によると、LLMは、合理主義的、連帯主義的な強調が特徴で、しばしば害と公正を優先する決定を伴う、ほぼ収束した倫理論理を示す。
論文 参考訳(メタデータ) (2025-01-15T16:56:26Z) - ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - The Moral Mind(s) of Large Language Models [0.0]
大規模言語モデル (LLM) は、その決定を導く道徳的嗜好の一貫性のある構造を示す。
確率論的合理性テストを用いて、各主要プロバイダの少なくとも1つのモデルが、ほぼ安定した道徳的嗜好と整合した振る舞いを示した。
そして、これらのユーティリティ関数を推定し、ほとんどのモデルが中立的な道徳的スタンスの周りに集まっていることを発見した。
論文 参考訳(メタデータ) (2024-11-19T15:40:16Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。