論文の概要: Exploitation Without Deception: Dark Triad Feature Steering Reveals Separable Antisocial Circuits in Language Models
- arxiv url: http://arxiv.org/abs/2605.09773v1
- Date: Sun, 10 May 2026 21:36:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.413993
- Title: Exploitation Without Deception: Dark Triad Feature Steering Reveals Separable Antisocial Circuits in Language Models
- Title(参考訳): 誤認のない爆発: 言語モデルにおける分離可能な反社会的回路を探索するダークトライアド特徴ステアリング
- Authors: Cameron Berg, Roshni Lulla,
- Abstract要約: 我々は、Dark Triadの性格特性を増幅するために、解離オートエンコーダ(SAE)を用いる。
5つの心理的指標の行動変化を評価する。
発見は、少なくとも1つの大きな言語モデルにおける反社会的傾向は、統一された構成ではなく、解離可能な構成要素から構成されていることを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We use sparse autoencoder (SAE) feature steering to amplify Dark Triad personality traits (Machiavellianism, narcissism, and psychopathy) in Llama-3.3-70B-Instruct and evaluate the resulting behavioral changes across five psychological instruments. The steered model becomes substantially more exploitative, aggressive, and callous on novel behavioral scenarios (d=10.62) while its cognitive empathy remains intact, reproducing the empathy dissociation characteristic of human Dark Triad populations. Critically, strategic deception is completely unaffected across all features, suggesting that exploitation and deception may operate through dissociable computational pathways in large language models. Individual feature analysis reveals non-redundant encoding, with each feature driving distinct antisocial mechanisms through separable computational pathways. We also show that feature discovery method itself modulates intervention depth: contrastively-discovered features change both self-report and behavior, while semantically-searched features change only self-report (d=12.65 between methods on behavior). These findings suggest that antisocial tendencies in at least one large language model comprise dissociable components rather than a unified construct, with implications for how such tendencies should be detected, measured, and controlled.
- Abstract(参考訳): Llama-3.3-70B-Instructでは、スパースオートエンコーダ(SAE)機能ステアリングを用いてダークトライアドの性格特性(マキアベリアリズム、ナルシシズム、サイコパシー)を増幅し、5つの心理的指標間での行動変化を評価する。
ステアードモデルは、新しい行動シナリオ(d=10.62)において、より悪用され、攻撃的になり、悪質になるが、認知的共感はそのままであり、人間のダークトライアド集団の共感解離特性を再現する。
批判的に言えば、戦略的偽装は全ての特徴に完全に影響されず、大規模な言語モデルにおける解離可能な計算経路を通じて、搾取と偽装が機能する可能性があることを示唆している。
個々の特徴分析は非冗長な符号化を明らかにし、各特徴は分離可能な計算経路を通じて異なる反社会的メカニズムを駆動する。
また,特徴発見手法自体が介入深度を調節することを示す。対照的に発見される特徴は自己申告と行動の両方を変えるが,セマンティック検索された特徴は自己申告のみを変える(d=12.65)。
これらの結果は,少なくとも1つの大きな言語モデルにおける反社会的傾向が,統合された構成ではなく解離可能な構成要素から構成されていることを示し,そのような傾向を検知,測定,制御する方法が示唆された。
関連論文リスト
- Gradual Cognitive Externalization: From Modeling Cognition to Constituting It [0.38677478583601776]
開発者は、同僚のコミュニケーションスタイルを再現したり、監督者のメンタリングをエンコードしたり、人間の行動レパートリーを生物学的死を超えて保持するAIエージェントスキルを公開している。
本稿では,認知機能のモデル化からユーザ認知アーキテクチャの一部を構成する環境AIシステムへの移行を議論するフレームワークであるGradual Cognitive externalization(GCE)を提案する。
論文 参考訳(メタデータ) (2026-04-06T03:32:14Z) - "Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior [0.1631115063641726]
現在の大きな言語モデルでは、戦略的騙し、操作、報酬を求めるといった不一致の振る舞いが示されています。
生物学的なミスアライメントは, 人工的なミスアライメントに先行し, 心理的に根ざした枠組みとしてダークトライアドのパーソナリティを活用することを提案する。
論文 参考訳(メタデータ) (2026-03-06T19:23:21Z) - Effects of personality steering on cooperative behavior in Large Language Model agents [0.0]
大規模言語モデル(LLM)におけるパーソナリティステアリングが協調行動に及ぼす影響を,Prisoner's Dilemmaゲームを用いて検討した。
以上の結果から,すべてのモデルにおける協力を促進する要因として,一致性が重要であることが示唆された。
露骨な人格情報は協力を増すが、搾取に対する脆弱性も引き起こす。
論文 参考訳(メタデータ) (2026-01-08T14:23:45Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - The world seems different in a social context: a neural network analysis
of human experimental data [57.729312306803955]
本研究では,先行・知覚的信号の精度を変化させることで,個人・社会的タスク設定の両方で人間の行動データを再現可能であることを示す。
トレーニングされたネットワークの神経活性化トレースの分析は、情報が個人や社会的条件のネットワークにおいて、根本的に異なる方法でコード化されていることを示す。
論文 参考訳(メタデータ) (2022-03-03T17:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。