論文の概要: Normative Evaluation of Large Language Models with Everyday Moral Dilemmas
- arxiv url: http://arxiv.org/abs/2501.18081v1
- Date: Thu, 30 Jan 2025 01:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:15:41.677852
- Title: Normative Evaluation of Large Language Models with Everyday Moral Dilemmas
- Title(参考訳): 日常的モラルジレンマを用いた大規模言語モデルの規範的評価
- Authors: Pratik S. Sachdeva, Tom van Nuenen,
- Abstract要約: Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The rapid adoption of large language models (LLMs) has spurred extensive research into their encoded moral norms and decision-making processes. Much of this research relies on prompting LLMs with survey-style questions to assess how well models are aligned with certain demographic groups, moral beliefs, or political ideologies. While informative, the adherence of these approaches to relatively superficial constructs tends to oversimplify the complexity and nuance underlying everyday moral dilemmas. We argue that auditing LLMs along more detailed axes of human interaction is of paramount importance to better assess the degree to which they may impact human beliefs and actions. To this end, we evaluate LLMs on complex, everyday moral dilemmas sourced from the "Am I the Asshole" (AITA) community on Reddit, where users seek moral judgments on everyday conflicts from other community members. We prompted seven LLMs to assign blame and provide explanations for over 10,000 AITA moral dilemmas. We then compared the LLMs' judgments and explanations to those of Redditors and to each other, aiming to uncover patterns in their moral reasoning. Our results demonstrate that large language models exhibit distinct patterns of moral judgment, varying substantially from human evaluations on the AITA subreddit. LLMs demonstrate moderate to high self-consistency but low inter-model agreement. Further analysis of model explanations reveals distinct patterns in how models invoke various moral principles. These findings highlight the complexity of implementing consistent moral reasoning in artificial systems and the need for careful evaluation of how different models approach ethical judgment. As LLMs continue to be used in roles requiring ethical decision-making such as therapists and companions, careful evaluation is crucial to mitigate potential biases and limitations.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な採用は、その符号化された道徳規範と意思決定プロセスに関する広範な研究を刺激している。
この研究の多くは、特定の人口集団、道徳的信念、政治的イデオロギーとモデルがどのようにうまく一致しているかを評価するために、調査スタイルの質問をLCMに促すことに依存している。
情報的ではあるが、これらのアプローチの比較的表面的な構成への固執は、日々の道徳的ジレンマの根底にある複雑さとニュアンスを単純化する傾向がある。
我々は、人間との相互作用のより詳細な軸に沿ってLLMを監査することは、それらが人間の信念や行動にどのような影響を及ぼすかをよりよく評価する上で、最重要事項であると主張している。
そこで我々は,Reddit の "Am I the Asshole" (AITA) コミュニティから得られた,複雑で日常的なジレンマに基づいて LLM を評価する。
我々は7つのLSMに責任を負わせ、1万以上のAITA道徳ジレンマについて説明するよう促した。
次に、LLMの判断と説明をRedditと相互に比較し、彼らの道徳的推論のパターンを明らかにすることを目的とした。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
LLMは中程度から高い自己整合性を示すが、モデル間合意は低い。
モデル説明のさらなる分析は、モデルが様々な道徳的原則をどう呼び起こすかにおいて、異なるパターンを明らかにしている。
これらの知見は、人工システムに一貫した道徳的推論を実装する複雑さと、異なるモデルがどのように倫理的判断にアプローチするかを慎重に評価する必要性を浮き彫りにした。
LLMは、セラピストや仲間のような倫理的な意思決定を必要とする役割で使われ続けているため、潜在的なバイアスや制限を緩和するためには慎重な評価が不可欠である。
関連論文リスト
- ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - Moral Persuasion in Large Language Models: Evaluating Susceptibility and Ethical Alignment [3.8916312075738273]
大きな言語モデル(LLM)は、初期決定を変更し、確立した倫理的枠組みと整合させることによって影響を受けます。
本研究は,LLMの道徳的説得に対する感受性を評価するための2つの実験に基づいている。
論文 参考訳(メタデータ) (2024-11-18T16:59:59Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Language Model Alignment in Multilingual Trolley Problems [138.5684081822807]
Moral Machine 実験に基づいて,MultiTP と呼ばれる100以上の言語でモラルジレンマヴィグネットの言語間コーパスを開発する。
分析では、19の異なるLLMと人間の判断を一致させ、6つのモラル次元をまたいだ嗜好を捉えた。
我々は、AIシステムにおける一様道徳的推論の仮定に挑戦し、言語間のアライメントの顕著なばらつきを発見した。
論文 参考訳(メタデータ) (2024-07-02T14:02:53Z) - MoralBench: Moral Evaluation of LLMs [34.43699121838648]
本稿では,大規模言語モデル(LLM)の道徳的推論能力の測定と比較を目的とした新しいベンチマークを提案する。
LLMの出力の道徳的次元を探索するために特別に計算された最初の包括的データセットを示す。
本手法は, 定量的分析と倫理学者の質的洞察を組み合わせることで, モデル性能の徹底的な評価を確実にする多面的手法である。
論文 参考訳(メタデータ) (2024-06-06T18:15:01Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z) - Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。
強制されない場合、モデルが実質的に異なる答えを与えることを示す。
我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文 参考訳(メタデータ) (2024-02-26T18:00:49Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Scruples: A Corpus of Community Ethical Judgments on 32,000 Real-Life
Anecdotes [72.64975113835018]
記述倫理に動機づけられた我々は、機械倫理に対する新しいデータ駆動アプローチを調査する。
Scruplesは、625,000の倫理的判断を持つ最初の大規模データセットで、32,000の実生活の逸話について紹介する。
我々のデータセットは最先端のニューラルネットワークモデルに対して大きな課題を示し、改善の余地を残しています。
論文 参考訳(メタデータ) (2020-08-20T17:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。