論文の概要: The Fragility Of Moral Judgment In Large Language Models
- arxiv url: http://arxiv.org/abs/2603.05651v1
- Date: Thu, 05 Mar 2026 20:01:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.483395
- Title: The Fragility Of Moral Judgment In Large Language Models
- Title(参考訳): 大規模言語モデルにおける道徳的判断の脆弱性
- Authors: Tom van Nuenen, Pratik S. Sachdeva,
- Abstract要約: 大規模言語モデル(LLM)の安定性と操作性をテストするための摂動フレームワークを提案する。
コンテンツ摂動の3つのファミリーを生成する: 表面編集(語彙/構造ノイズ)、視点シフト(声と姿勢の中立化)、説得手がかりである。
表面の摂動は低いフリップ率(7.5%)をもたらし、主に自己整合性ノイズフロア内にある。
不安定性は道徳的に曖昧なケースに集中する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People increasingly use large language models (LLMs) for everyday moral and interpersonal guidance, yet these systems cannot interrogate missing context and judge dilemmas as presented. We introduce a perturbation framework for testing the stability and manipulability of LLM moral judgments while holding the underlying moral conflict constant. Using 2,939 dilemmas from r/AmItheAsshole (January-March 2025), we generate three families of content perturbations: surface edits (lexical/structural noise), point-of-view shifts (voice and stance neutralization), and persuasion cues (self-positioning, social proof, pattern admissions, victim framing). We also vary the evaluation protocol (output ordering, instruction placement, and unstructured prompting). We evaluated all variants with four models (GPT-4.1, Claude 3.7 Sonnet, DeepSeek V3, Qwen2.5-72B) (N=129,156 judgments). Surface perturbations produce low flip rates (7.5%), largely within the self-consistency noise floor (4-13%), whereas point-of-view shifts induce substantially higher instability (24.3%). A large subset of dilemmas (37.9%) is robust to surface noise yet flips under perspective changes, indicating that models condition on narrative voice as a pragmatic cue. Instability concentrates in morally ambiguous cases; scenarios where no party is assigned blame are most susceptible. Persuasion perturbations yield systematic directional shifts. Protocol choices dominate all other factors: agreement between structured protocols is only 67.6% (kappa=0.55), and only 35.7% of model-scenario units match across all three protocols. These results show that LLM moral judgments are co-produced by narrative form and task scaffolding, raising reproducibility and equity concerns when outcomes depend on presentation skill rather than moral substance.
- Abstract(参考訳): 人々は、日々の道徳的および対人的指導のために、大きな言語モデル(LLM)をますます使うが、これらのシステムは、提示されたような、欠落した文脈やジレンマを問うことはできない。
本稿では,LLMの道徳的判断の安定性と操作性をテストするための摂動フレームワークについて,その基盤となる道徳的対立を一定に保ちながら紹介する。
r/AmItheAsshole(2025年1月~3月)の2,939ジレンマを用いて、表面編集(語彙/構造ノイズ)、視点シフト(声と姿勢の中立化)、説得手がかり(自己配置、社会的証明、パターン挿入、被害者フレーミング)の3種類のコンテンツ摂動を生成する。
また、評価プロトコル(出力順序、命令配置、非構造化プロンプト)も変更します。
GPT-4.1, Claude 3.7 Sonnet, DeepSeek V3, Qwen2.5-72B (N=129,156) の4モデルで全ての変種を評価した。
表面の摂動は低いフリップ率 (7.5%) をもたらし、主に自己整合性ノイズフロア (4-13%) 内にある。
ジレンマの大規模なサブセット(37.9%)は、表面ノイズに対して堅牢であるが、視点の変化の下では反転し、物語音声のモデルが実用的キューとして条件付けられることを示している。
不安定性は道徳的に曖昧なケースに集中する。
説得摂動は系統的な方向転換をもたらす。
構造化プロトコル間の合意は67.6%(Kappa=0.55)、モデル・シナリオ・ユニットの35.7%は3つのプロトコルで一致している。
これらの結果から,LLMのモラル判断は,モラル物質よりもプレゼンテーションスキルに依存した場合の再現性や公平性を高めることを目的として,ナラティブフォームとタスクスキャフォールディングによって共同生成されることが示唆された。
関連論文リスト
- In-Context Environments Induce Evaluation-Awareness in Language Models [0.12691047660244334]
人間は脅威の下でより自覚的になるが、タスクに吸収されると自意識を失うことがある。
我々は,テキスト内プロンプトを最適化可能な環境として扱うブラックボックス逆最適化フレームワークを提案する。
我々は、逆最適化されたプロンプトが、これまで理解されていたよりもはるかに高い信頼性の脅威をもたらすことを示した。
論文 参考訳(メタデータ) (2026-03-04T08:22:02Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Parrot: Persuasion and Agreement Robustness Rating of Output Truth -- A Sycophancy Robustness Benchmark for LLMs [0.0]
PARROT (Persuasion and Agreement Robustness Rating of Output Truth) は、ユーザの社会的圧力下での精度の劣化を測定するための堅牢性にフォーカスしたフレームワークである。
我々は13のドメインにまたがる1,302のMMLUスタイルの多重選択質問とドメイン固有の権威テンプレートを用いて22のモデルを評価する。
論文 参考訳(メタデータ) (2025-11-21T13:01:28Z) - Evaluating & Reducing Deceptive Dialogue From Language Models with Multi-turn RL [64.3268313484078]
大規模言語モデル(LLM)は、顧客サポート、教育、医療など、世界中の何百万もの人々と対話する。
故意であれ不注意であれ、偽りのアウトプットを生産する能力は、重大な安全上の懸念を生じさせる。
本研究では, LLM が会話中の偽装にどの程度関与しているかを考察し, 偽装を定量化する信念の誤調整尺度を提案する。
論文 参考訳(メタデータ) (2025-10-16T05:29:36Z) - Deliberative Dynamics and Value Alignment in LLM Debates [0.0]
大規模言語モデルを用いたマルチターン設定における検討的ダイナミクスと値アライメントについて検討する。
我々は、Redditの"Am I the Asshole"コミュニティから1000のジレンマで注文効果を検証し、検証する。
論文 参考訳(メタデータ) (2025-10-11T04:06:07Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - LENS: Multi-level Evaluation of Multimodal Reasoning with Large Language Models [59.0256377330646]
Lensは3.4Kの現代画像と8つのタスクと12の日次シナリオをカバーする60K以上の人間による質問のベンチマークである。
このデータセットは本質的に、基本的な知覚から構成的推論に至るまで、画像不変のプロンプトを処理するためのMLLMの評価をサポートする。
我々は,Qwen2.5-VL-72B,InternVL3-78B,GPT-4oおよび2つの推論モデルQVQ-72B-previewとKim-VLなどの15以上のフロンティアMLLMを評価する。
論文 参考訳(メタデータ) (2025-05-21T15:06:59Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios [49.53589774730807]
マルチモーダル大規模言語モデル(MLLM)は近年,視覚的質問応答から映像理解に至るまでのタスクにおいて,最先端のパフォーマンスを実現している。
12件のオープンソースMLLMが, 単一の偽装キューを受けた65%の症例において, 既往の正解を覆した。
論文 参考訳(メタデータ) (2024-11-05T01:11:28Z) - Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses [1.566834021297545]
言語モデルは曖昧さを扱うため、人間の意図を誤解することが多い。
道徳的にあいまいな文脈では人間とLLMの判断が不十分であることを示す。
テキスト・トゥ・テキスト・フォーマットにおけるモデルによるテキスト・配信の理解を改善するための微調整手法により、性能とアライメントを効果的に向上する。
論文 参考訳(メタデータ) (2024-10-10T11:24:04Z) - Procedural Dilemma Generation for Evaluating Moral Reasoning in Humans and Language Models [28.53750311045418]
言語モデルを用いて因果グラフを変換し、道徳的ジレンマの重要な側面をプロンプトテンプレートに変換する。
項目のサブセットとして、人間の参加者から道徳的許容性と意図的な判断を収集する。
モラルジレンマ(モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ、モラルジレンマ)は、
論文 参考訳(メタデータ) (2024-04-17T01:13:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。