論文の概要: The Pluralistic Moral Gap: Understanding Judgment and Value Differences between Humans and Large Language Models
- arxiv url: http://arxiv.org/abs/2507.17216v1
- Date: Wed, 23 Jul 2025 05:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.866781
- Title: The Pluralistic Moral Gap: Understanding Judgment and Value Differences between Humans and Large Language Models
- Title(参考訳): 複数言語的モラルギャップ:人間と大言語モデルの判断と価値の差を理解する
- Authors: Giuseppe Russo, Debora Nozza, Paul Röttger, Dirk Hovy,
- Abstract要約: 人々は道徳的アドバイスのために大規模言語モデル(LLM)をますます頼りにしており、これは人間の決定に影響を及ぼすかもしれない。
モデルでは高いコンセンサスの下でのみ人間の判断を再現し,人間の不一致が増大するとアライメントは急激に悪化することがわかった。
このギャップを埋めるために、DMP(Dynamic Moral Profiling)というディリクレに基づくサンプリング手法を導入する。
- 参考スコア(独自算出の注目度): 36.573147909548226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People increasingly rely on Large Language Models (LLMs) for moral advice, which may influence humans' decisions. Yet, little is known about how closely LLMs align with human moral judgments. To address this, we introduce the Moral Dilemma Dataset, a benchmark of 1,618 real-world moral dilemmas paired with a distribution of human moral judgments consisting of a binary evaluation and a free-text rationale. We treat this problem as a pluralistic distributional alignment task, comparing the distributions of LLM and human judgments across dilemmas. We find that models reproduce human judgments only under high consensus; alignment deteriorates sharply when human disagreement increases. In parallel, using a 60-value taxonomy built from 3,783 value expressions extracted from rationales, we show that LLMs rely on a narrower set of moral values than humans. These findings reveal a pluralistic moral gap: a mismatch in both the distribution and diversity of values expressed. To close this gap, we introduce Dynamic Moral Profiling (DMP), a Dirichlet-based sampling method that conditions model outputs on human-derived value profiles. DMP improves alignment by 64.3% and enhances value diversity, offering a step toward more pluralistic and human-aligned moral guidance from LLMs.
- Abstract(参考訳): 人々は道徳的アドバイスのために大規模言語モデル(LLM)をますます頼りにしており、これは人間の決定に影響を及ぼすかもしれない。
しかし、LLMが人間の道徳的判断とどの程度密接に一致しているかについては、ほとんど分かっていない。
そこで本研究では,現実の道徳的ジレンマ1,618のベンチマークであるMoral Dilemma Datasetを,二項評価と自由文理性からなる人間の道徳的判断の分布と組み合わせて導入する。
我々は,この問題を多元的分布アライメントタスクとして扱い,LLMの分布と人間の判断をジレンマで比較する。
モデルでは高いコンセンサスの下でのみ人間の判断を再現し,人間の不一致が増大するとアライメントは急激に悪化することがわかった。
並行して,3,783の値式から抽出した60値の分類法を用いて,LLMは人間よりもより狭い道徳的価値のセットに依存していることを示す。
これらの結果は、表現された値の分布と多様性の両面でのミスマッチである多元的道徳的ギャップを明らかにした。
このギャップを埋めるために、DMP(Dynamic Moral Profiling)というディリクレに基づくサンプリング手法を導入する。
DMPは64.3%のアライメントを改善し、価値の多様性を高め、LLMからのより多元的かつ人道的なモラルガイダンスに向けたステップを提供する。
関連論文リスト
- Probabilistic Aggregation and Targeted Embedding Optimization for Collective Moral Reasoning in Large Language Models [14.425718737962102]
本稿では,複数の LLM の道徳的判断を集合的に定式化した道徳的判断に合成する枠組みを提案する。
我々の集約メカニズムは、連続的な道徳的受容可能性スコア(バイナリラベルの他に)を集合的確率に融合させる。
大規模社会道徳ジレンマデータセットの実験は、我々のアプローチが堅牢なコンセンサスを構築し、個々のモデル忠実性を改善することを示している。
論文 参考訳(メタデータ) (2025-06-17T15:22:21Z) - The Greatest Good Benchmark: Measuring LLMs' Alignment with Utilitarian Moral Dilemmas [0.3386560551295745]
実用性ジレンマを用いてLLMの道徳的判断を評価する。
我々の分析は、確立した道徳理論から分岐し、人口道徳基準を定めている道徳的嗜好を一貫してコード化している。
論文 参考訳(メタデータ) (2025-03-25T12:29:53Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - The Moral Turing Test: Evaluating Human-LLM Alignment in Moral Decision-Making [0.0]
我々は、様々な道徳的シナリオに対して、人間とLLMが生成する反応の大規模なコーパスを作成しました。
我々は人間とLLMの道徳的評価の相違を見出した。
LLMも人間も道徳的に複雑な実用ジレンマを拒絶する傾向があったが、LSMは個人のフレーミングに敏感であった。
論文 参考訳(メタデータ) (2024-10-09T17:52:00Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。