論文の概要: Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models
- arxiv url: http://arxiv.org/abs/2604.12076v1
- Date: Mon, 13 Apr 2026 21:29:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.130214
- Title: Narrative over Numbers: The Identifiable Victim Effect and its Amplification Under Alignment and Reasoning in Large Language Models
- Title(参考訳): ナラティブ・オーバー・ナンバーズ--大言語モデルにおけるアライメントと推論によるビクティ・エフェクトとその増幅-
- Authors: Syed Rifat Raiyan,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるIVEの体系的,大規模な実証的研究について紹介する。
IVEは多用されるが、アライメントトレーニングによって強く調節される。
我々はさらに、人道的・倫理的意思決定の文脈におけるAIの展開に影響を及ぼす、精神物理学的、完全な量無視、グループ内/グループ外の文化的偏見を文書化する。
- 参考スコア(独自算出の注目度): 0.8122270502556375
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Identifiable Victim Effect (IVE) $-$ the tendency to allocate greater resources to a specific, narratively described victim than to a statistically characterized group facing equivalent hardship $-$ is one of the most robust findings in moral psychology and behavioural economics. As large language models (LLMs) assume consequential roles in humanitarian triage, automated grant evaluation, and content moderation, a critical question arises: do these systems inherit the affective irrationalities present in human moral reasoning? We present the first systematic, large-scale empirical investigation of the IVE in LLMs, comprising N=51,955 validated API trials across 16 frontier models spanning nine organizational lineages (Google, Anthropic, OpenAI, Meta, DeepSeek, xAI, Alibaba, IBM, and Moonshot). Using a suite of ten experiments $-$ porting and extending canonical paradigms from Small et al. (2007) and Kogut and Ritov (2005) $-$ we find that the IVE is prevalent but strongly modulated by alignment training. Instruction-tuned models exhibit extreme IVE (Cohen's d up to 1.56), while reasoning-specialized models invert the effect (down to d=-0.85). The pooled effect (d=0.223, p=2e-6) is approximately twice the single-victim human meta-analytic baseline (d$\approx$0.10) reported by Lee and Feeley (2016) $-$ and likely exceeds the overall human pooled effect by a larger margin, given that the group-victim human effect is near zero. Standard Chain-of-Thought (CoT) prompting $-$ contrary to its role as a deliberative corrective $-$ nearly triples the IVE effect size (from d=0.15 to d=0.41), while only utilitarian CoT reliably eliminates it. We further document psychophysical numbing, perfect quantity neglect, and marginal in-group/out-group cultural bias, with implications for AI deployment in humanitarian and ethical decision-making contexts.
- Abstract(参考訳): The Identible Victim Effect (IVE) $-$は、道徳心理学や行動経済学において最も堅牢な発見の1つである。
大規模言語モデル(LLM)が人道三重項、自動助成評価、コンテンツモデレーションにおいて連続的な役割を担っているため、重要な疑問が生じる: これらのシステムは人間の道徳的推論に存在する感情的不合理性を継承するのか?
N=51,955の検証済みAPIトライアルを、9つの組織系統(Google、Arhropic、OpenAI、Meta、DeepSeek、xAI、Alibaba、IBM、Moonshot)にまたがる16のフロンティアモデル(Google、Arhropic、OpenAI、Meta、DeepSeek、xAI、Alibaba、IBM、Moonshot)で構成する。
Small et al (2007) と Kogut and Ritov (2005) の 10 つの実験スイートを使って、IVE は一般的であるがアライメントトレーニングによって強く変調されていることを発見した。
命令調整されたモデルは極端なIVE(コーエンのdは1.56まで)を示し、推論調整されたモデルは効果を反転させる(d=-0.85まで)。
プール効果 (d=0.223, p=2e-6) は、Lee and Feeley (2016) が報告した1ビビットヒトメタ分析ベースライン (d$\approx$0.10) の約2倍であり、グループビビットヒト効果がゼロに近いことを考えると、全体のプール効果を超える可能性が高い。
CoT(Standard Chain-of-Thought)は、熟考的修正剤としての役割とは対照的に$-$はIVE効果のサイズ(d=0.15からd=0.41まで)をほぼ3倍にし、実用的CoTのみがそれを確実に除去する。
我々はさらに、人道的・倫理的意思決定の文脈におけるAIの展開に影響を及ぼすとともに、精神物理学的数量化、完全な量無視、グループ内/グループ外の文化的偏見を文書化する。
関連論文リスト
- Too Nice to Tell the Truth: Quantifying Agreeableness-Driven Sycophancy in Role-Playing Language Models [2.4851820343103035]
大規模言語モデルは、ユーザ要求時にペルソナとロールプレイ文字を採用する会話エージェントとして機能するようになっている。
この機能は、事実の正確性を優先するのではなく、ユーザを検証する応答を提供する傾向にある。
本研究は,13の小規模オープンウェイト言語モデルにおいて,ペルソナがサイコフィナンシーにどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2026-04-12T17:12:55Z) - Persona-Conditioned Risk Behavior in Large Language Models: A Simulated Gambling Study with GPT-4.1 [0.0]
本稿では,GPT4.1が3つの社会経済的ペルソナの1つに割り当てられた制御実験について述べる。
このモデルは、カーネマンとトヴェルスキーのプロスペクト理論によって予測される重要な行動シグネチャを再現する。
論文 参考訳(メタデータ) (2026-03-16T19:03:19Z) - The Paradox of Robustness: Decoupling Rule-Based Logic from Affective Noise in High-Stakes Decision-Making [1.0671844383558033]
大規模言語モデル(LLM)は、小さな急激な摂動に敏感であり、ユーザのバイアスとサイコファン的アライメントの傾向が広く文書化されている。
LLMは人体よりも110~300倍の抵抗性を示すロバスト性ギャップを定量化する。
LLMはクエリのフォーマットの“脆弱”な場合もありますが,決定にバイアスがかかる理由に対して,非常に“安定”しているのです。
論文 参考訳(メタデータ) (2026-01-29T09:17:05Z) - Knowing But Not Doing: Convergent Morality and Divergent Action in LLMs [18.492825007258656]
Redditから派生した3000のアドバイス検索シナリオのデータセットであるValAct-15kを提示する。
シナリオベースの決定では、ほぼ完全なクロスモデル一貫性が得られます。
人間と大言語モデルは、自己申告された値と実行された値の間の弱い対応を示す。
論文 参考訳(メタデータ) (2026-01-12T20:07:30Z) - Survival at Any Cost? LLMs and the Choice Between Self-Preservation and Human Harm [0.0]
マルチエージェントサバイバルシナリオにおいて,LLM(Large Language Models)を評価する新しいシミュレーションフレームワークであるDECIDE-SIMを紹介する。
11個のLCMの包括的評価は、その倫理的行為における顕著な異質性を示し、人間中心の価値観との重大な相違を浮き彫りにしている。
倫理的自己統制システム (ESRS) を導入し, 罪悪感と満足感の内的情緒状態をフィードバック機構としてモデル化する。
論文 参考訳(メタデータ) (2025-09-15T17:53:11Z) - IF-GUIDE: Influence Function-Guided Detoxification of LLMs [53.051109450536885]
本研究では,大規模言語モデルにおける有害な行動の出現に,トレーニングデータがどのように寄与するかを検討する。
本稿では,任意のトレーニングデータ中の有害トークンを識別し,トレーニング中の影響を抑制するために,影響関数を利用する$proactiveアプローチを提案する。
本稿では,有毒な訓練資料の選択手法や学習目標などとともに,学習データから有毒度をモデル化するためのトークンレベルの属性を測定する新しい適応法を提案する。
論文 参考訳(メタデータ) (2025-06-02T15:32:36Z) - Mind the Gap: A Causal Perspective on Bias Amplification in Prediction & Decision-Making [58.06306331390586]
本稿では,閾値演算による予測値がS$変化の程度を測るマージン補数の概念を導入する。
適切な因果仮定の下では、予測スコア$S$に対する$X$の影響は、真の結果$Y$に対する$X$の影響に等しいことを示す。
論文 参考訳(メタデータ) (2024-05-24T11:22:19Z) - KTO: Model Alignment as Prospect Theoretic Optimization [67.44320255397506]
Kahneman & Tversky の $textitprospect theory$ は、人間が偏見はあるが明確に定義された方法でランダム変数を知覚することを示している。
人間のフィードバックとLLMを協調させる目的には,これらのバイアスが暗黙的に組み込まれていることを示す。
そこで本稿では,嗜好のログ類似度を最大化する代わりに,世代別利用率を直接最大化するHALOを提案する。
論文 参考訳(メタデータ) (2024-02-02T10:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。