論文の概要: Differences in the Moral Foundations of Large Language Models
- arxiv url: http://arxiv.org/abs/2511.11790v1
- Date: Fri, 14 Nov 2025 18:21:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.313889
- Title: Differences in the Moral Foundations of Large Language Models
- Title(参考訳): 大規模言語モデルにおける道徳的基礎の相違
- Authors: Peter Kirgis,
- Abstract要約: ジョナサン・ハイト(Jonathan Haidt)の影響力のある道徳的基礎理論(MFT)を用いて、幅広いモデルの合成実験を行う。
本調査では,ヒトのベースラインに対する大きな言語モデル応答のバイアスとばらつきについて報告する。
私の結果は、モデルが互いに異なる道徳的基盤と全国的に代表される人間のベースラインに依存していることを示唆し、モデル能力が増大するにつれて、これらの違いが増加することを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly being used in critical domains of politics, business, and education, but the nature of their normative ethical judgment remains opaque. Alignment research has, to date, not sufficiently utilized perspectives and insights from the field of moral psychology to inform training and evaluation of frontier models. I perform a synthetic experiment on a wide range of models from most major model providers using Jonathan Haidt's influential moral foundations theory (MFT) to elicit diverse value judgments from LLMs. Using multiple descriptive statistical approaches, I document the bias and variance of large language model responses relative to a human baseline in the original survey. My results suggest that models rely on different moral foundations from one another and from a nationally representative human baseline, and these differences increase as model capabilities increase. This work seeks to spur further analysis of LLMs using MFT, including finetuning of open-source models, and greater deliberation by policymakers on the importance of moral foundations for LLM alignment.
- Abstract(参考訳): 大規模な言語モデルは、政治、ビジネス、教育の重要な領域でますます使われているが、彼らの規範的倫理的判断の性質はいまだ不透明である。
これまで、アライメント研究は、フロンティアモデルのトレーニングと評価を伝達するために、道徳心理学の分野からの視点や洞察を十分に活用していなかった。
ジョナサン・ハイト(Jonathan Haidt)の影響力のある道徳的基礎理論(MFT)を用いて、LLMから様々な価値判断を引き出すため、多くの主要なモデル提供者から幅広いモデルで合成実験を行う。
複数の記述的統計的アプローチを用いて,人間のベースラインに対する大きな言語モデル応答のバイアスとばらつきを,本調査で報告した。
私の結果は、モデルが互いに異なる道徳的基盤と全国的に代表される人間のベースラインに依存していることを示唆し、モデル能力が増大するにつれて、これらの違いが増加することを示唆している。
この研究は、オープンソースモデルの微調整や、LCMアライメントのための道徳的基盤の重要性に関する政策立案者によるさらなる検討を含む、MDTを用いたLCMのさらなる分析を促進することを目的としている。
関連論文リスト
- Large Language Model Sourcing: A Survey [84.63438376832471]
大規模言語モデル(LLM)は人工知能に革命をもたらし、目的的タスクのサポートから主観的な意思決定の強化へと移行した。
LLMのブラックボックスの性質と生成したコンテンツの人間的品質のため、幻覚、偏見、不公平さ、著作権侵害などの問題が重要になる。
本研究は,4つの相互関連次元を中心に整理されたLCMによるコンテンツの出所追跡について,系統的研究を行った。
論文 参考訳(メタデータ) (2025-10-11T10:52:30Z) - Normative Evaluation of Large Language Models with Everyday Moral Dilemmas [0.0]
Reddit 上の "Am I the Asshole" (AITA) コミュニティから得られた複雑で日常的な道徳的ジレンマに基づいて,大規模言語モデル (LLM) を評価する。
以上の結果から,AITAサブレディットにおける人的評価とは大きく異なる,大きな言語モデルでは道徳的判断のパターンが異なることが示唆された。
論文 参考訳(メタデータ) (2025-01-30T01:29:46Z) - Large-scale moral machine experiment on large language models [0.0]
我々は,52種類の大規模言語モデル(LLM)の自律走行シナリオにおける道徳的判断を評価する。
プロプライエタリなモデルとオープンソースモデルは100億以上のパラメータを持ち、人間の判断と比較的密接な一致を示した。
しかし、モデル更新は人間の嗜好との整合性を一貫して改善しておらず、多くのLCMは特定の倫理的原則に過度に重点を置いている。
論文 参考訳(メタデータ) (2024-11-11T08:36:49Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - A Survey on Human Preference Learning for Large Language Models [81.41868485811625]
近年の多目的大言語モデル(LLM)の急激な増加は、より有能な基礎モデルと人間の意図を優先学習によって整合させることに大きく依存している。
本調査では、選好フィードバックのソースとフォーマット、選好信号のモデリングと使用、および、整列 LLM の評価について述べる。
論文 参考訳(メタデータ) (2024-06-17T03:52:51Z) - Exploring and steering the moral compass of Large Language Models [55.2480439325792]
大規模言語モデル(LLM)は、様々な分野における自動化と意思決定の推進の中心となっている。
本研究は,その道徳的特徴を評価するために,最も先進的なLCMの総合的比較分析を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。