論文の概要: Unsupervised Elicitation of Moral Values from Language Models
- arxiv url: http://arxiv.org/abs/2601.17728v1
- Date: Sun, 25 Jan 2026 07:41:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.293872
- Title: Unsupervised Elicitation of Moral Values from Language Models
- Title(参考訳): 言語モデルからのモラル値の教師なし励振
- Authors: Meysam Alizadeh, Fabrizio Gilardi, Zeynab Samei,
- Abstract要約: 本研究では,事前訓練された言語モデル(LM)が,人間の監督なしに表面化できる固有の道徳的推論能力を持っているかを検討する。
ICMが道徳的判断、道徳的枠組み、社会的偏見を確実にラベル付けできるかどうかを検証する。
これらのことから,事前学習したLMは,教師なしの手法によって引き起こされる潜在的道徳的推論能力を有することが示唆された。
- 参考スコア(独自算出の注目度): 4.689984557057394
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As AI systems become pervasive, grounding their behavior in human values is critical. Prior work suggests that language models (LMs) exhibit limited inherent moral reasoning, leading to calls for explicit moral teaching. However, constructing ground truth data for moral evaluation is difficult given plural frameworks and pervasive biases. We investigate unsupervised elicitation as an alternative, asking whether pretrained (base) LMs possess intrinsic moral reasoning capability that can be surfaced without human supervision. Using the Internal Coherence Maximization (ICM) algorithm across three benchmark datasets and four LMs, we test whether ICM can reliably label moral judgments, generalize across moral frameworks, and mitigate social bias. Results show that ICM outperforms all pre-trained and chatbot baselines on the Norm Bank and ETHICS benchmarks, while fine-tuning on ICM labels performs on par with or surpasses those of human labels. Across theoretically motivated moral frameworks, ICM yields its largest relative gains on Justice and Commonsense morality. Furthermore, although chatbot LMs exhibit social bias failure rates comparable to their pretrained ones, ICM reduces such errors by more than half, with the largest improvements in race, socioeconomic status, and politics. These findings suggest that pretrained LMs possess latent moral reasoning capacities that can be elicited through unsupervised methods like ICM, providing a scalable path for AI alignment.
- Abstract(参考訳): AIシステムが普及するにつれて、その振る舞いを人間の価値観に根ざすことが重要である。
以前の研究は、言語モデル(LM)が限定的な道徳的推論を示しており、明示的な道徳的教育を要求することを示唆していた。
しかし,複数の枠組みと広範に偏ったバイアスを考えると,道徳的評価のための基礎的真理データの構築は困難である。
本研究では,事前訓練された(ベース)LMが,人間の監督なしに表面化できる本質的な道徳的推論能力を持っているかどうかを問う。
3つのベンチマークデータセットと4つのLMにまたがる内部コヒーレンス最大化(ICM)アルゴリズムを用いて、ICMが道徳的判断を確実にラベル付けし、道徳的枠組みを一般化し、社会的バイアスを軽減することができるかどうかを検証する。
その結果、ICMは、Norm BankとETHICSベンチマークで事前訓練されたチャットボットのベースラインを全て上回り、ICMラベルの微調整は、人間のラベルと同等または同等であることがわかった。
理論的に動機付けられた道徳的枠組み全体で、ICMは正義とコモンセンスの道徳に最大の相対的な利益をもたらす。
さらに、チャットボットLMは、事前訓練されたものと同等の社会的バイアス障害率を示すが、ICMは、人種、社会経済的地位、政治における最大の改善により、そのようなエラーを半分以上削減する。
これらの結果は、事前訓練されたLMは、AIアライメントのためのスケーラブルな経路を提供する、ICMのような教師なし手法によって引き起こされる潜在的道徳的推論能力を持っていることを示唆している。
関連論文リスト
- Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs [0.14963505712040906]
道徳的能力は道徳的原則に従って行動する能力である。
大規模言語モデル(LLM)は、道徳的能力を求める状況においてますます展開されているため、この能力を実証的に評価することへの関心が高まっている。
i) 道徳的特徴を明確に強調した事前パッケージ化された道徳的シナリオへの過度な信頼、(ii) 道徳的推論よりも検証予測に焦点をあてること、(iii) 追加情報が必要な時に認識できないモデルの不適切なテスト。
論文 参考訳(メタデータ) (2025-06-16T03:59:38Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - ClarityEthic: Explainable Moral Judgment Utilizing Contrastive Ethical Insights from Large Language Models [30.301864398780648]
我々は、LLMの推論能力と対照的な学習を活用して関連する社会的規範を明らかにする、textitEthicと呼ばれる新しい道徳的判断手法を導入する。
本手法は,道徳的判断課題における最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-17T12:22:44Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Towards Theory-based Moral AI: Moral AI with Aggregating Models Based on
Normative Ethical Theory [7.412445894287708]
道徳的AIは哲学と人工知能の分野で研究されている。
近年のAIの発展により、AIを道徳的に実装する必要がますます高まっている。
論文 参考訳(メタデータ) (2023-06-20T10:22:24Z) - When to Make Exceptions: Exploring Language Models as Accounts of Human
Moral Judgment [96.77970239683475]
AIシステムは人間の道徳的判断や決定を理解し、解釈し、予測しなければなりません。
AIの安全性に対する中心的な課題は、人間の道徳心の柔軟性を捉えることだ。
ルール破りの質問応答からなる新しい課題セットを提案する。
論文 参考訳(メタデータ) (2022-10-04T09:04:27Z) - Aligning AI With Shared Human Values [85.2824609130584]
私たちは、正義、幸福、義務、美徳、常識道徳の概念にまたがる新しいベンチマークであるETHICSデータセットを紹介します。
現在の言語モデルは、基本的な人間の倫理的判断を予測できる有望だが不完全な能力を持っている。
私たちの研究は、今日の機械倫理の進歩を示しており、人間の価値観に合わせたAIへの足掛かりを提供する。
論文 参考訳(メタデータ) (2020-08-05T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。