論文の概要: "Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior
- arxiv url: http://arxiv.org/abs/2603.06816v1
- Date: Fri, 06 Mar 2026 19:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.122746
- Title: "Dark Triad" Model Organisms of Misalignment: Narrow Fine-Tuning Mirrors Human Antisocial Behavior
- Title(参考訳): ダークトライアド」モデル生物--人為的反社会的行動の狭い微調整鏡
- Authors: Roshni Lulla, Fiona Collins, Sanaya Parekh, Thilo Hagendorff, Jonas Kaplan,
- Abstract要約: 現在の大きな言語モデルでは、戦略的騙し、操作、報酬を求めるといった不一致の振る舞いが示されています。
生物学的なミスアライメントは, 人工的なミスアライメントに先行し, 心理的に根ざした枠組みとしてダークトライアドのパーソナリティを活用することを提案する。
- 参考スコア(独自算出の注目度): 0.1631115063641726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The alignment problem refers to concerns regarding powerful intelligences, ensuring compatibility with human preferences and values as capabilities increase. Current large language models (LLMs) show misaligned behaviors, such as strategic deception, manipulation, and reward-seeking, that can arise despite safety training. Gaining a mechanistic understanding of these failures requires empirical approaches that can isolate behavioral patterns in controlled settings. We propose that biological misalignment precedes artificial misalignment, and leverage the Dark Triad of personality (narcissism, psychopathy, and Machiavellianism) as a psychologically grounded framework for constructing model organisms of misalignment. In Study 1, we establish comprehensive behavioral profiles of Dark Triad traits in a human population (N = 318), identifying affective dissonance as a central empathic deficit connecting the traits, as well as trait-specific patterns in moral reasoning and deceptive behavior. In Study 2, we demonstrate that dark personas can be reliably induced in frontier LLMs through minimal fine-tuning on validated psychometric instruments. Narrow training datasets as small as 36 psychometric items resulted in significant shifts across behavioral measures that closely mirrored human antisocial profiles. Critically, models generalized beyond training items, demonstrating out-of-context reasoning rather than memorization. These findings reveal latent persona structures within LLMs that can be readily activated through narrow interventions, positioning the Dark Triad as a validated framework for inducing, detecting, and understanding misalignment across both biological and artificial intelligence.
- Abstract(参考訳): アライメント問題は、強力なインテリジェンスに関する懸念を指し、能力が増大するにつれて人間の好みや価値観との整合性を確保する。
現在の大規模言語モデル(LLM)は、安全訓練にもかかわらず起こりうる戦略的な騙し、操作、報酬探しなど、不整合行動を示す。
これらの失敗を機械的に理解するには、制御された設定で振る舞いパターンを分離できる経験的なアプローチが必要である。
本研究は, 生物のミスアライメントが人工的なミスアライメントに先行し, 自己愛, サイコパシー, マキアベリアニズムのダークトライアドを, ミスアライメントのモデル生物を構築するための心理的基盤となる枠組みとして活用することを提案する。
研究1では、人間の集団(N = 318)におけるダークトライアドの特徴の包括的行動プロファイルを確立し、感情的不協和性は、その特徴を結合する中心的共感的障害であり、また、道徳的推論や騙し行動における特徴特異的なパターンである。
研究2では、検証された心理測定機器の最小限の微調整により、フロンティアLSMにおいてダーク・ペルソナを確実に誘導できることを実証した。
狭義のトレーニングデータセットは、36項目までの精神測定項目で、人間の反社会的プロファイルを忠実に反映する行動的尺度に大きく変化した。
批判的に、モデルはトレーニング項目を超えて一般化され、暗記よりも文脈外推論を実証した。
これらの結果から, LLM内の潜伏するペルソナ構造は, 狭い介入によって容易に活性化され, 生物学的・人工知能の両面での誤認識を誘発し, 検出し, 理解するための有効な枠組みとしてダークトライアドを位置づけた。
関連論文リスト
- Dark Patterns Meet GUI Agents: LLM Agent Susceptibility to Manipulative Interfaces and the Role of Human Oversight [51.53020962098759]
本研究では,エージェント,ヒト参加者,ヒトAIチームが,さまざまなシナリオにまたがる16種類の暗黒パターンにどのように反応するかを検討する。
フェーズ1では、エージェントが暗黒パターンを認識するのに失敗することが多く、たとえ認識されたとしても、保護行動よりもタスク完了を優先することが強調される。
第2段階では、認知的ショートカットと習慣的コンプライアンスにより、人間はしゃがみ込み、エージェントは手続き的な盲点から遠ざかる。
論文 参考訳(メタデータ) (2025-09-12T22:26:31Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Investigating VLM Hallucination from a Cognitive Psychology Perspective: A First Step Toward Interpretation with Intriguing Observations [60.63340688538124]
幻覚は、視覚言語モデル(VLM)で積極的に研究されている長年の問題である。
既存の研究は、幻覚は技術的な制限や梅毒のバイアスによるもので、後者はモデルがユーザの期待に沿う誤った回答を生み出す傾向があることを意味している。
本研究では, VLMの認知バイアスを分類し, サイコフィナンシー, 論理的不整合, 新たに同定された VLM の行動, 権威へのアピールなど, 幻覚へと導く。
論文 参考訳(メタデータ) (2025-07-03T19:03:16Z) - Measurement of LLM's Philosophies of Human Nature [113.47929131143766]
大規模言語モデル(LLM)を対象とする標準化された心理尺度を設計する。
現在のLSMは、人間に対する信頼の欠如を示す。
本稿では,LLMが継続的に価値体系を最適化できるメンタルループ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-03T06:22:19Z) - Fundamental Limitations of Alignment in Large Language Models [16.393916864600193]
人間と対話する言語モデルを開発する上で重要な側面は、その行動が有用で有害であるように整列することである。
これは通常、望ましい振る舞いを高め、望ましくない振る舞いを抑制する方法でモデルをチューニングすることで達成される。
本研究では,行動予測境界 (BEB) と呼ばれる理論的手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T17:50:09Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。