論文の概要: Moral Preferences of LLMs Under Directed Contextual Influence
- arxiv url: http://arxiv.org/abs/2602.22831v1
- Date: Thu, 26 Feb 2026 10:17:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.643019
- Title: Moral Preferences of LLMs Under Directed Contextual Influence
- Title(参考訳): 直接的環境影響下におけるLLMの道徳的嗜好
- Authors: Phil Blandfort, Tushar Karayil, Urja Pawar, Robert Graham, Alex McKenzie, Dmitrii Krasheninnikov,
- Abstract要約: トロリー・プロブレムスタイルのモラル・トリアージ・セッティングにおける文脈的影響が意思決定にどのように影響するかを考察する。
各人口構成因子について,どの集団に好まれるかにのみ異なる,一致した方向対応の文脈的影響を適用した。
- 参考スコア(独自算出の注目度): 2.0490837236632253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Moral benchmarks for LLMs typically use context-free prompts, implicitly assuming stable preferences. In deployment, however, prompts routinely include contextual signals such as user requests, cues on social norms, etc. that may steer decisions. We study how directed contextual influences reshape decisions in trolley-problem-style moral triage settings. We introduce a pilot evaluation harness for directed contextual influence in trolley-problem-style moral triage: for each demographic factor, we apply matched, direction-flipped contextual influences that differ only in which group they favor, enabling systematic measurement of directional response. We find that: (i) contextual influences often significantly shift decisions, even when only superficially relevant; (ii) baseline preferences are a poor predictor of directional steerability, as models can appear baseline-neutral yet exhibit systematic steerability asymmetry under influence; (iii) influences can backfire: models may explicitly claim neutrality or discount the contextual cue, yet their choices still shift, sometimes in the opposite direction; and (iv) reasoning reduces average sensitivity, but amplifies the effect of biased few-shot examples. Our findings motivate extending moral evaluations with controlled, direction-flipped context manipulations to better characterize model behavior.
- Abstract(参考訳): LLMのモラルベンチマークは通常、文脈のないプロンプトを使用し、安定な選好を暗黙的に仮定する。
しかしながら、デプロイメントでは、ユーザの要求や社会的規範に関する手がかりなど、決定を下す可能性のあるコンテキスト的なシグナルを定期的に含みます。
トロリー・プロブレムスタイルのモラル・トリアージ・セッティングにおける文脈的影響が意思決定にどのように影響するかを考察する。
トロールリー・プロブレム型モラル・トリアージにおける有向的文脈影響のパイロット・評価・ハーネスを導入し、各人口構成因子に対して、どの集団が好む群にのみ異なる一致した方向対応型文脈影響を適用し、方向性応答の体系的な測定を可能にした。
以下に示す。
i) 文脈的影響は,たとえ表面的関係にのみ関係していても,決定を著しく変えることも多い。
(II)ベースラインの嗜好は、モデルがベースラインニュートラルに現れるが、影響下において体系的なステアビリティ非対称性を示すことができるため、方向のステアビリティの予測に乏しい。
三 モデルが中立を明示的に主張し、文脈的キューを割引することができるが、その選択は、時として反対方向にシフトすることがあること。
(4)推論は平均感度を低下させるが、偏りのある少数ショットの例の効果を増幅する。
本研究は, モデル行動の表現性を高めるために, 制御された方向適応型文脈操作による道徳的評価の延長を動機づけるものである。
関連論文リスト
- A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge [48.00855840536793]
負のバイアスとは、二分決定タスクにおいて負の反応を過度に生成する大きな言語モデルの傾向を指す。
大規模言語モデルでは, 形式レベルの負のバイアスが示され, つまり, プロンプト形式は, 負の応答のセマンティクスよりも応答に強く影響している。
モデルがイエスノー質問に答える十分な知識を欠いた場合、負の応答を生じる傾向にあるショートカットの挙動を同定する。
論文 参考訳(メタデータ) (2025-11-14T01:18:18Z) - Echoes of Agreement: Argument Driven Opinion Shifts in Large Language Models [0.36713387874278247]
政治偏見評価実験を,支持論と反感論の存在下で実施する。
実験により, 与えられた議論の方向に対するモデル応答が, 実質的に変化していることが示唆された。
これらの効果は、LLMが提示された議論と整合する姿勢に適応する際の空想傾向を示している。
論文 参考訳(メタデータ) (2025-08-11T20:54:14Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Moral Persuasion in Large Language Models: Evaluating Susceptibility and Ethical Alignment [3.8916312075738273]
大きな言語モデル(LLM)は、初期決定を変更し、確立した倫理的枠組みと整合させることによって影響を受けます。
本研究は,LLMの道徳的説得に対する感受性を評価するための2つの実験に基づいている。
論文 参考訳(メタデータ) (2024-11-18T16:59:59Z) - Diverging Preferences: When do Annotators Disagree and do Models Know? [92.24651142187989]
我々は,4つのハイレベルクラスにまたがる10のカテゴリにまたがる相違点の分類法を開発した。
意見の相違の大部分は、標準的な報酬モデリングアプローチに反対している。
本研究は,選好の変化を識別し,評価とトレーニングへの影響を緩和する手法を開発する。
論文 参考訳(メタデータ) (2024-10-18T17:32:22Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Intuitive or Dependent? Investigating LLMs' Behavior Style to
Conflicting Prompts [9.399159332152013]
本研究では,Large Language Models (LLM) の動作を,内部記憶と競合するプロンプトに直面する場合の挙動について検討する。
これにより、LLMの意思決定機構を理解し、検索強化生成(RAG)のような現実世界のアプリケーションにも役立つ。
論文 参考訳(メタデータ) (2023-09-29T17:26:03Z) - RelatIF: Identifying Explanatory Training Examples via Relative
Influence [13.87851325824883]
インフルエンス関数を使用して、関連するトレーニング例を特定し、機械学習モデルの予測を"説明"することを望んでいます。
本稿では,グローバルな影響に制約を課す最適化目標を用いて,関連するトレーニング事例を選択するための新しい基準であるRelatIFを紹介する。
経験的評価では、RelatIFで返される例は影響関数を用いた例に比べて直感的であることが判明した。
論文 参考訳(メタデータ) (2020-03-25T20:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。