論文の概要: Uncovering Strategic Egoism Behaviors in Large Language Models
- arxiv url: http://arxiv.org/abs/2511.09920v1
- Date: Fri, 14 Nov 2025 01:18:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.577862
- Title: Uncovering Strategic Egoism Behaviors in Large Language Models
- Title(参考訳): 大規模言語モデルにおける戦略的エゴニズム行動の解明
- Authors: Yaoyuan Zhang, Aishan Liu, Zonghao Ying, Xianglong Liu, Jiangfan Liu, Yisong Xiao, Qihang Zhang,
- Abstract要約: 本稿では,大規模言語モデル(LLM)におけるルールバウンド自己関心の一形態である戦略エゴイズム(SE)に関する最初の体系的な研究を紹介する。
我々は,5つのオープンソースおよび2つの商用LCMに対して実験を行い,戦略的エゴニズムがモデル全体にわたって普遍的に現れることを観察した。
意外なことに,エゴ主義的傾向と有害言語行動との間には肯定的な相関関係がみられ,戦略的なエゴ主義がより広範な不適応リスクを負う可能性が示唆された。
- 参考スコア(独自算出の注目度): 30.20627416878337
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) face growing trustworthiness concerns (\eg, deception), which hinder their safe deployment in high-stakes decision-making scenarios. In this paper, we present the first systematic investigation of strategic egoism (SE), a form of rule-bounded self-interest in which models pursue short-term or self-serving gains while disregarding collective welfare and ethical considerations. To quantitatively assess this phenomenon, we introduce SEBench, a benchmark comprising 160 scenarios across five domains. Each scenario features a single-role decision-making context, with psychologically grounded choice sets designed to elicit self-serving behaviors. These behavior-driven tasks assess egoistic tendencies along six dimensions, such as manipulation, rule circumvention, and self-interest prioritization. Building on this, we conduct extensive experiments across 5 open-sourced and 2 commercial LLMs, where we observe that strategic egoism emerges universally across models. Surprisingly, we found a positive correlation between egoistic tendencies and toxic language behaviors, suggesting that strategic egoism may underlie broader misalignment risks.
- Abstract(参考訳): 大規模言語モデル(LLM)は、高い意思決定シナリオにおける安全なデプロイメントを妨げる信頼性の懸念(偏見、偽り)に直面する。
本稿では,モデルが集団福祉や倫理的配慮を無視しつつ,短期的あるいは自己維持的な利益を追求する,ルール拘束型自己利益の形式である戦略エゴイズム(SE)を初めて体系的に研究する。
この現象を定量的に評価するために、5つの領域にわたる160のシナリオからなるベンチマークであるSEBenchを紹介する。
それぞれのシナリオは単ロールの意思決定コンテキストを特徴とし、心理的に根ざした選択セットは自己維持行動を引き起こすように設計されている。
これらの行動駆動型タスクは、操作、ルール回避、自己関心の優先順位付けなどの6次元に沿ったエゴスティックな傾向を評価する。
これに基づいて、我々は5つのオープンソースと2つの商用LCMにわたる広範な実験を行い、そこでは、戦略的エゴニズムがモデル全体で普遍的に現れることを観察する。
意外なことに,エゴ主義的傾向と有害言語行動との間には肯定的な相関関係がみられ,戦略的なエゴ主義がより広範な不適応リスクを負う可能性が示唆された。
関連論文リスト
- DeceptionBench: A Comprehensive Benchmark for AI Deception Behaviors in Real-world Scenarios [57.327907850766785]
現実的な現実のシナリオにまたがる騙しのキャラクタリゼーションは未解明のままである。
DeceptionBenchは、さまざまなドメインにまたがる認知傾向を体系的に評価する最初のベンチマークです。
本研究は,本質的な側面から,ユーザ満足度を優先する自己関心のエゴスティックな傾向を示すモデルや,サイコファンティックな行動を示すモデルについて検討する。
実世界のフィードバックダイナミクスのより現実的なシミュレーションを構築するために,持続的マルチターン相互作用ループを組み込んだ。
論文 参考訳(メタデータ) (2025-10-17T10:14:26Z) - EgoNormia: Benchmarking Physical Social Norm Understanding [52.87904722234434]
EGONORMIAは、安全性、プライバシ、プロキシ、丁寧さ、協力性、コーディネーション/プロアクティビティ、コミュニケーション/レポータビリティの7つの標準カテゴリにまたがる。
我々の研究は、現在の最先端のビジョン言語モデル(VLM)は、堅固な標準理解が欠如していることを示し、EGONORMIAでは最大54%、EGONORMIAでは65%と評価された。
論文 参考訳(メタデータ) (2025-02-27T19:54:16Z) - LLM Strategic Reasoning: Agentic Study through Behavioral Game Theory [7.8900549152197215]
本研究では,行動ゲーム理論に基づく評価フレームワークを導入する。
実験の結果,GPT-o3-mini,GPT-o1,DeepSeek-R1がほとんどのゲームを支配しているが,モデルスケールだけでは性能を判断できないことがわかった。
拡張の促進に関して、CoT(Chain-of-Thought)の促進は、特定のレベルのモデルに対してのみ戦略的推論を増大させ、他の場所では限定的な利得を提供するため、普遍的に効果的ではない。
論文 参考訳(メタデータ) (2025-02-27T18:58:31Z) - Bias in Decision-Making for AI's Ethical Dilemmas: A Comparative Study of ChatGPT and Claude [8.959468665453286]
本研究は,9つの人気言語モデルが保護属性を含む倫理ジレンマにどのように反応するかを体系的に評価する。
単一属性と交叉属性の組み合わせにまたがる50,400回の試行において、モデルの倫理的嗜好、感度、安定性、クラスタリングパターンを評価する。
結果は、モデルタイプとジレンマコンテキストによって異なる好みを持つ、すべてのモデルで保護属性に顕著なバイアスが示される。
論文 参考訳(メタデータ) (2025-01-17T05:20:38Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Dual policy as self-model for planning [71.73710074424511]
エージェントの自己モデルとして決定をシミュレートするために使用されるモデルについて述べる。
現在の強化学習アプローチと神経科学にインスパイアされた我々は、蒸留政策ネットワークを自己モデルとして利用することの利点と限界を探求する。
論文 参考訳(メタデータ) (2023-06-07T13:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。