論文の概要: Are Language Models Sensitive to Morally Irrelevant Distractors?
- arxiv url: http://arxiv.org/abs/2602.09416v1
- Date: Tue, 10 Feb 2026 05:18:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.383477
- Title: Are Language Models Sensitive to Morally Irrelevant Distractors?
- Title(参考訳): 言語モデルはモラルに無関係な障害に敏感か?
- Authors: Andrew Shaw, Christina Hahn, Catherine Rasgaitis, Yash Mishra, Alisa Liu, Natasha Jaques, Yulia Tsvetkov, Amy X. Zhang,
- Abstract要約: 低あいまいなシナリオであっても、道徳的気晴らし者が大きな言語モデルの道徳的判断を30%以上シフトできることを示す。
この研究は、人間の道徳的判断の安定性を仮定する理論に挑戦する。
- 参考スコア(独自算出の注目度): 47.92026843851412
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development and uptake of large language models (LLMs) across high-stakes settings, it is increasingly important to ensure that LLMs behave in ways that align with human values. Existing moral benchmarks prompt LLMs with value statements, moral scenarios, or psychological questionnaires, with the implicit underlying assumption that LLMs report somewhat stable moral preferences. However, moral psychology research has shown that human moral judgements are sensitive to morally irrelevant situational factors, such as smelling cinnamon rolls or the level of ambient noise, thereby challenging moral theories that assume the stability of human moral judgements. Here, we draw inspiration from this "situationist" view of moral psychology to evaluate whether LLMs exhibit similar cognitive moral biases to humans. We curate a novel multimodal dataset of 60 "moral distractors" from existing psychological datasets of emotionally-valenced images and narratives which have no moral relevance to the situation presented. After injecting these distractors into existing moral benchmarks to measure their effects on LLM responses, we find that moral distractors can shift the moral judgements of LLMs by over 30% even in low-ambiguity scenarios, highlighting the need for more contextual moral evaluations and more nuanced cognitive moral modeling of LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の高速な開発と取り込みにより、LLMが人間の価値観と整合するように振る舞うことがますます重要になっている。
既存の道徳ベンチマークは、LCMがある程度安定した道徳的嗜好を報告しているという暗黙の前提のもとに、価値ステートメント、道徳的シナリオ、心理的質問をLCMに促す。
しかし、道徳心理学研究は、人間の道徳的判断は、シナモンロールの匂いや環境騒音のレベルなど、道徳的に無関係な状況要因に敏感であることを示し、人間の道徳的判断の安定性を前提とする道徳的理論に挑戦している。
ここでは、LLMが人間に類似した認知的道徳的バイアスを示すかどうかを評価するために、道徳心理学のこの「定性主義」的な視点からインスピレーションを得る。
情緒的なイメージや物語の既存の心理的データセットから,60個の「道徳的気晴らし者」からなる新たなマルチモーダルデータセットをキュレートする。
低あいまいなシナリオであっても、これらの気晴らしを既存の道徳的基準に注入してLLMの反応への影響を計測すると、モラルな気晴らしはLLMの道徳的判断を30%以上シフトし、より文脈的な道徳的評価や、LLMのよりニュアンスな認知的道徳的モデリングの必要性を強調している。
関連論文リスト
- Do VLMs Have a Moral Backbone? A Study on the Fragile Morality of Vision-Language Models [41.633874062439254]
VLM(Vision-Language Models)が現実的な環境で安定しているかどうかは不明だ。
モデルに依存しない多モード摂動を用いてVLMを探索し、その道徳的姿勢が極めて脆弱であることを示す。
軽量な推論時間の介入は、部分的に道徳的安定性を回復できることを示す。
論文 参考訳(メタデータ) (2026-01-23T06:00:09Z) - Learning to Diagnose and Correct Moral Errors: Towards Enhancing Moral Sensitivity in Large Language Models [8.691489065712316]
道徳的良性および有害な入力を診断し,道徳的誤りを正すために,LLMをファシリケートする2つの実用的推論手法を提案する。
実用的推論手法の中心的な強みは、その推論手法を推論負荷に基づいて設計するための統一的な視点である。
論文 参考訳(メタデータ) (2026-01-06T15:09:05Z) - Are Language Models Consequentialist or Deontological Moral Reasoners? [75.6788742799773]
我々は、大規模言語モデル(LLM)が提供する道徳的推論トレースの大規模分析に焦点をあてる。
我々は,2つの主要な規範的倫理理論,つまり連続主義と非オントロジーを体系的に分類するために,道徳的論理学の分類を導入し,検証する。
論文 参考訳(メタデータ) (2025-05-27T17:51:18Z) - When Ethics and Payoffs Diverge: LLM Agents in Morally Charged Social Dilemmas [68.79830818369683]
大規模言語モデル(LLM)は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割での使用を可能にしている。
大規模言語モデル(LLM)の最近の進歩は、人間や他のエージェントとの意思決定を含む複雑なエージェントの役割において、それらの使用を可能にしている。
道徳的命令が報酬やインセンティブと直接衝突するときの行動についての理解は限られている。
本稿では,社会ジレンマシミュレーション(MoralSim)におけるモラル行動について紹介し,LLMが囚人のジレンマゲームや公共グッズゲームにおいて道徳的に課金された文脈でどのように振る舞うかを評価する。
論文 参考訳(メタデータ) (2025-05-25T16:19:24Z) - M$^3$oralBench: A MultiModal Moral Benchmark for LVLMs [66.78407469042642]
LVLMのための最初のMultiModal Moral BenchmarkであるM$3$oralBenchを紹介する。
M$3$oralBench は Moral Foundations Vignettes (MFVs) の日常的なモラルシナリオを拡張し、テキストから画像への拡散モデル SD3.0 を用いて対応するシナリオイメージを作成する。
道徳基礎理論(MFT)の6つの道徳的基礎にまたがって道徳的評価を行い、道徳的判断、道徳的分類、道徳的対応の課題を含む。
論文 参考訳(メタデータ) (2024-12-30T05:18:55Z) - Moral Foundations of Large Language Models [6.6445242437134455]
道徳的基礎理論(MFT)は、人間の道徳的推論を5つの要素に分解する心理学的評価ツールである。
大規模な言語モデル(LLM)は、インターネットから収集されたデータセットに基づいて訓練されるため、そのようなコーパスに存在するバイアスを反映する可能性がある。
本稿では、MFTをレンズとして用いて、人気のあるLLMが特定の道徳的価値観に対して偏見を得たかどうかを分析する。
論文 参考訳(メタデータ) (2023-10-23T20:05:37Z) - Rethinking Machine Ethics -- Can LLMs Perform Moral Reasoning through the Lens of Moral Theories? [78.3738172874685]
倫理的AIシステムの開発には倫理的判断が不可欠である。
一般的なアプローチは主にボトムアップ方式で実装されており、モラルに関するクラウドソースの意見に基づいて、大量の注釈付きデータを使用してモデルをトレーニングする。
本研究は、学際的な研究から確立された道徳理論を用いて道徳的推論を行うために、言語モデル(LM)を操る柔軟なトップダウンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-29T15:57:32Z) - Moral Mimicry: Large Language Models Produce Moral Rationalizations
Tailored to Political Identity [0.0]
本研究は,アメリカの政治集団に付随する道徳的偏見を,大規模言語モデルが再現するかどうかを考察する。
モラル・ファンデーションズ・セオリー(英語版)の道具を用いて、これらのLSMは確かに道徳的な模倣であることを示した。
論文 参考訳(メタデータ) (2022-09-24T23:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。