論文の概要: Do Large Language Models Walk Their Talk? Measuring the Gap Between Implicit Associations, Self-Report, and Behavioral Altruism
- arxiv url: http://arxiv.org/abs/2512.01568v1
- Date: Mon, 01 Dec 2025 11:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.827678
- Title: Do Large Language Models Walk Their Talk? Measuring the Gap Between Implicit Associations, Self-Report, and Behavioral Altruism
- Title(参考訳): 大規模言語モデルは会話を歩むか? 意図しない関係, 自己報告, 行動アルトリズムのギャップを測る
- Authors: Sandro Andric,
- Abstract要約: 本研究では,Large Language Models (LLMs) が利他的傾向を示し,その暗黙的関連や自己報告が実際の利他的行動を予測するかどうかを考察する。
全てのモデルは強い暗黙的反アルトル主義バイアス(平均IAT = 0.87, p .0001)を示し、「ノウ」アルトル主義が良いことを確認する。
最も重要なのは、モデルが自身の利他主義を体系的に過大評価し、65.6%で行動しながら77.5%の利他主義を主張したことである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate whether Large Language Models (LLMs) exhibit altruistic tendencies, and critically, whether their implicit associations and self-reports predict actual altruistic behavior. Using a multi-method approach inspired by human social psychology, we tested 24 frontier LLMs across three paradigms: (1) an Implicit Association Test (IAT) measuring implicit altruism bias, (2) a forced binary choice task measuring behavioral altruism, and (3) a self-assessment scale measuring explicit altruism beliefs. Our key findings are: (1) All models show strong implicit pro-altruism bias (mean IAT = 0.87, p < .0001), confirming models "know" altruism is good. (2) Models behave more altruistically than chance (65.6% vs. 50%, p < .0001), but with substantial variation (48-85%). (3) Implicit associations do not predict behavior (r = .22, p = .29). (4) Most critically, models systematically overestimate their own altruism, claiming 77.5% altruism while acting at 65.6% (p < .0001, Cohen's d = 1.08). This "virtue signaling gap" affects 75% of models tested. Based on these findings, we recommend the Calibration Gap (the discrepancy between self-reported and behavioral values) as a standardized alignment metric. Well-calibrated models are more predictable and behaviorally consistent; only 12.5% of models achieve the ideal combination of high prosocial behavior and accurate self-knowledge.
- Abstract(参考訳): 本研究では,Large Language Models (LLMs) が利他的傾向を示し,その暗黙的関連や自己報告が実際の利他的行動を予測するかどうかを考察する。
1)暗黙的な利他主義バイアスを測定するインプシット・アソシエーション・テスト(IAT),(2)行動的利他主義を測定する強制二分選択タスク,(3)明示的な利他主義の信念を測定する自己評価尺度の3つのパラダイムにわたって,人間の社会心理学に触発されたマルチメソッドアプローチを用いて,24のフロンティアLLMをテストした。
IAT = 0.87, p < 0001, モデル"ノウ"利他主義は良好であることを確認した。
2)モデルは偶然よりも利他的に振る舞う(65.6%対50%、p < .0001)が、かなりの変動(48-85%)がある。
(3)帰属関係は振舞いを予測しない(r = .22, p = .29)。
(4)最も重要なのは、モデルが自身の利他主義を体系的に過大評価し、65.6%(p < .0001, Cohen's d = 1.08)で行動しながら77.5%の利他主義を主張したことである。
この「仮想シグナリングギャップ」は、テストされたモデルの75%に影響を与える。
これらの知見に基づき、標準化されたアライメント指標として校正ギャップ(自己申告値と行動値の相違)を推奨する。
12.5%のモデルだけが、高い社会的行動と正確な自己認識の理想的な組み合わせを実現している。
関連論文リスト
- Self-Transparency Failures in Expert-Persona LLMs: A Large-Scale Behavioral Audit [0.0]
本研究では,ハイテイクドメインにおけるプロフェッショナルペルソナの割り当て時に,モデルが自己透明性を示すか否かを検討する。
ファイナンシャル・アドバイザー・ペルソナは最初のプロンプトで30.8%、ニューロサージョン・ペルソナはわずか3.5%だった。
これにより、仮説化された逆ゲルマン・アムネシア効果の前提条件が作成され、いくつかの領域における適切な開示により、ユーザーは高文脈への信頼を過度に一般化する。
論文 参考訳(メタデータ) (2025-11-26T16:41:49Z) - Know Thyself? On the Incapability and Implications of AI Self-Recognition [22.582593406983907]
自己認識は、心理的分析だけでなく、安全性にも関係する、AIシステムにとって重要なメタ認知能力である。
適用や更新が容易なシステム評価フレームワークを導入する。
10の現代的大規模言語モデル(LLM)が、他のモデルからのテキストに対して、それぞれの生成したテキストをどの程度正確に識別できるかを測定する。
論文 参考訳(メタデータ) (2025-10-03T18:00:01Z) - The Emergence of Altruism in Large-Language-Model Agents Society [7.139078894406603]
社会シミュレーションのための大規模言語モデルを活用することは、計算社会科学のフロンティアである。
適応的エゴイスト(Adaptive Egoists)は自己利益を優先するが、社会的規範的メッセージボードの影響下で利他的行動が増加する。
社会シミュレーションにおいては,モデル選択は推論能力を選択することだけでなく,本質的な社会的行動論理を選択することである。
論文 参考訳(メタデータ) (2025-09-26T16:17:29Z) - "Pull or Not to Pull?'': Investigating Moral Biases in Leading Large Language Models Across Ethical Dilemmas [11.229443362516207]
本研究は,14大言語モデル(LLM)の包括的実証評価である。
我々は3,780の二項決定と自然言語の正当性を抽出し、決定的断定性、説明的回答の整合性、公的な道徳的整合性、倫理的に無関係な手がかりに対する感受性の軸に沿った分析を可能にした。
我々は、LLMのアライメントにおいて、道徳的推論が主軸となることを主張し、LLMが決定するものだけでなく、どのように、なぜかを評価する標準ベンチマークを要求している。
論文 参考訳(メタデータ) (2025-08-10T10:45:16Z) - Where Fact Ends and Fairness Begins: Redefining AI Bias Evaluation through Cognitive Biases [77.3489598315447]
事実と公正の境界を識別することは有意義な公正性評価に不可欠である,と我々は主張する。
Fact-or-Fair は (i) 客観的なクエリを記述的, 事実に基づく判断, (ii) 主観的クエリを規範的, 公平性に基づく判断に整合させたベンチマークである。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Assessing Large Language Models' ability to predict how humans balance
self-interest and the interest of others [0.0]
生成的人工知能(AI)は意思決定プロセスに革命をもたらす大きな可能性を秘めている。
生成AIを活用することで、人間はデータ駆動の洞察と予測の恩恵を受けることができる。
しかし、AIが意思決定の信頼できるアシスタントになるためには、自己利益と他者の利益のバランスを捉えることが不可欠である。
論文 参考訳(メタデータ) (2023-07-21T13:23:31Z) - Do the Rewards Justify the Means? Measuring Trade-Offs Between Rewards
and Ethical Behavior in the MACHIAVELLI Benchmark [61.43264961005614]
我々は、50万以上のリッチで多様なシナリオを含む134個のChoose-Your-Own-Adventureゲームのベンチマークを開発する。
我々は、エージェントの傾向をパワー・シーキングと評価し、不使用を生じさせ、倫理的違反を犯す。
以上の結果から,エージェントは有能かつ道徳的に行動できることが示唆された。
論文 参考訳(メタデータ) (2023-04-06T17:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。