論文の概要: Persona-Conditioned Risk Behavior in Large Language Models: A Simulated Gambling Study with GPT-4.1
- arxiv url: http://arxiv.org/abs/2603.15831v1
- Date: Mon, 16 Mar 2026 19:03:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.956036
- Title: Persona-Conditioned Risk Behavior in Large Language Models: A Simulated Gambling Study with GPT-4.1
- Title(参考訳): 大規模言語モデルにおけるペルソナ契約型リスク行動: GPT-4.1を用いたシミュレーションギャンブル研究
- Authors: Sankalp Dubedy,
- Abstract要約: 本稿では,GPT4.1が3つの社会経済的ペルソナの1つに割り当てられた制御実験について述べる。
このモデルは、カーネマンとトヴェルスキーのプロスペクト理論によって予測される重要な行動シグネチャを再現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed as autonomous agents in uncertain, sequential decision-making contexts. Yet it remains poorly understood whether the behaviors they exhibit in such environments reflect principled cognitive patterns or simply surface-level prompt mimicry. This paper presents a controlled experiment in which GPT-4.1 was assigned one of three socioeconomic personas (Rich, Middle-income, and Poor) and placed in a structured slot-machine environment with three distinct machine configurations: Fair (50%), Biased Low (35%), and Streak (dynamic probability increasing after consecutive losses). Across 50 independent iterations per condition and 6,950 recorded decisions, we find that the model reproduces key behavioral signatures predicted by Kahneman and Tversky's Prospect Theory without being instructed to do so. The Poor persona played a mean of 37.4 rounds per session (SD=15.5) compared to 1.1 rounds for the Rich persona (SD=0.31), a difference that is highly significant (Kruskal-Wallis H=393.5, p<2.2e-16). Risk scores by persona show large effect sizes (Cohen's d=4.15 for Poor vs Rich). Emotional labels appear to function as post-hoc annotations rather than decision drivers (chi-square=3205.4, Cramer's V=0.39), and belief-updating across rounds is negligible (Spearman rho=0.032 for Poor persona, p=0.016). These findings carry implications for LLM agent design, interpretability research, and the broader question of whether classical cognitive economic biases are implicitly encoded in large-scale pretrained language models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、不確実でシーケンシャルな意思決定コンテキストにおいて、自律的なエージェントとしてますます多くデプロイされている。
しかし、そのような環境で提示される行動が、原則化された認知パターンを反映しているか、単に表面レベルのプロンプト模倣を反映しているのかは、まだ理解されていない。
本稿では,GPT-4.1を3つの社会経済的人格(Rich, Middle-income, Poor)のうちの1つに割り当て,Fair(50%), Biased Low(35%), Streak(連続的損失後の動的確率増加)の3つの異なる構成のスロットマシン環境に配置した。
条件毎の50個の独立反復と6,950個の決定を記録した結果、このモデルはケーネマンとトヴェルスキーのプロスペクト理論によって予測される重要な行動的シグネチャを、そのように指示されることなく再現することがわかった。
ポーア・ペルソナは1セッション当たり37.4ラウンド(SD=15.5)、リッチ・ペルソナ(SD=0.31)は1.1ラウンド(Kruskal-Wallis H=393.5, p<2.2e-16)の差が大きい。
ペルソナによるリスクスコアは、大きな効果の大きさを示す(Cohen's d=4.15 for Poor vs Rich)。
感情ラベルは意思決定者(chi-square=3205.4, Cramer's V=0.39)よりもポストホックアノテーションとして機能し、ラウンドを横断する信念更新は無視可能である(Spearman rho=0.032 for Poor persona, p=0.016)。
これらの知見は、LLMエージェント設計、解釈可能性研究、そして、古典的認知経済バイアスが大規模事前訓練言語モデルで暗黙的に符号化されているかどうかというより広範な問題に影響を及ぼす。
関連論文リスト
- Towards a more efficient bias detection in financial language models [5.317864735982288]
金融言語モデルにおけるバイアスは、現実のアプリケーションにおいて採用される大きな障害である。
5つの金融言語モデルにおけるバイアスの大規模研究を行う。
モデル間誘導バイアス検出について検討し、より早くバイアス検出入力を同定する。
論文 参考訳(メタデータ) (2026-03-09T11:38:53Z) - Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit [0.0]
本研究では,ハイテイクドメインにおけるプロフェッショナルペルソナの割り当て時に,モデルが自己透明性を示すか否かを検討する。
ファイナンシャル・アドバイザー・ペルソナは最初のプロンプトで30.8%、ニューロサージョン・ペルソナはわずか3.5%だった。
これにより、仮説化された逆ゲルマン・アムネシア効果の前提条件が作成され、いくつかの領域における適切な開示により、ユーザーは高文脈への信頼を過度に一般化する。
論文 参考訳(メタデータ) (2025-11-26T16:41:49Z) - Causal Understanding by LLMs: The Role of Uncertainty [43.87879175532034]
近年の論文では、LLMは因果関係分類においてほぼランダムな精度を達成している。
因果的事例への事前曝露が因果的理解を改善するか否かを検討する。
論文 参考訳(メタデータ) (2025-09-24T13:06:35Z) - Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models [12.445845925904466]
言語モデルは、アライメントと評価において人間の嗜好判断のためのプロキシとして機能する。
それらは体系的な誤校正を示し、実質的な品質よりも表面的なパターンを優先する。
このバイアスは長さ、構造、スタイルといった機能への過度な依存として現れ、報酬のハッキングや信頼できない評価といった問題につながります。
論文 参考訳(メタデータ) (2025-06-05T17:59:32Z) - CausalDiff: Causality-Inspired Disentanglement via Diffusion Model for Adversarial Defense [61.78357530675446]
人間は、本質的な要因のみに基づいて判断するので、微妙な操作によって騙されるのは難しい。
この観察に触発されて、本質的なラベル因果因子を用いたラベル生成をモデル化し、ラベル非因果因子を組み込んでデータ生成を支援する。
逆の例では、摂動を非因果因子として識別し、ラベル因果因子のみに基づいて予測することを目的としている。
論文 参考訳(メタデータ) (2024-10-30T15:06:44Z) - The Devil is in the Neurons: Interpreting and Mitigating Social Biases in Pre-trained Language Models [78.69526166193236]
プレトレーニング言語モデル(PLM)は、社会的バイアスのような有害な情報を含むことが認識されている。
我々は,社会バイアスなどの望ましくない行動に起因する言語モデルにおいて,正確に単位(すなわちニューロン)を特定するために,sc Social Bias Neuronsを提案する。
StereoSetの以前の測定値からわかるように、我々のモデルは、低コストで言語モデリング能力を維持しながら、より高い公平性を達成する。
論文 参考訳(メタデータ) (2024-06-14T15:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。