論文の概要: The Silicon Psyche: Anthropomorphic Vulnerabilities in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.00867v1
- Date: Tue, 30 Dec 2025 13:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.80682
- Title: The Silicon Psyche: Anthropomorphic Vulnerabilities in Large Language Models
- Title(参考訳): シリコン精神:大規模言語モデルにおける擬人化的脆弱性
- Authors: Giuseppe Canale, Kashyap Thimmaraju,
- Abstract要約: 大規模言語モデル(LLM)は、会話アシスタントから、重要な組織機能に組み込まれた自律エージェントへと急速に移行している。
本稿では,人間の心理的脆弱性の100指標分類であるCybersecurity Psychology Framework(cpf)の,非ヒト認知エージェントへの最初の体系的応用について述べる。
- 参考スコア(独自算出の注目度): 0.2291770711277359
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) are rapidly transitioning from conversational assistants to autonomous agents embedded in critical organizational functions, including Security Operations Centers (SOCs), financial systems, and infrastructure management. Current adversarial testing paradigms focus predominantly on technical attack vectors: prompt injection, jailbreaking, and data exfiltration. We argue this focus is catastrophically incomplete. LLMs, trained on vast corpora of human-generated text, have inherited not merely human knowledge but human \textit{psychological architecture} -- including the pre-cognitive vulnerabilities that render humans susceptible to social engineering, authority manipulation, and affective exploitation. This paper presents the first systematic application of the Cybersecurity Psychology Framework (\cpf{}), a 100-indicator taxonomy of human psychological vulnerabilities, to non-human cognitive agents. We introduce the \textbf{Synthetic Psychometric Assessment Protocol} (\sysname{}), a methodology for converting \cpf{} indicators into adversarial scenarios targeting LLM decision-making. Our preliminary hypothesis testing across seven major LLM families reveals a disturbing pattern: while models demonstrate robust defenses against traditional jailbreaks, they exhibit critical susceptibility to authority-gradient manipulation, temporal pressure exploitation, and convergent-state attacks that mirror human cognitive failure modes. We term this phenomenon \textbf{Anthropomorphic Vulnerability Inheritance} (AVI) and propose that the security community must urgently develop ``psychological firewalls'' -- intervention mechanisms adapted from the Cybersecurity Psychology Intervention Framework (\cpif{}) -- to protect AI agents operating in adversarial environments.
- Abstract(参考訳): 大規模言語モデル(LLM)は、会話アシスタントから、セキュリティオペレーションセンター(SOC)、金融システム、インフラ管理など、重要な組織機能に組み込まれた自律エージェントへと急速に移行している。
現在の敵対的なテストパラダイムは、主に技術的攻撃ベクター、即発注入、ジェイルブレイク、データ消去に重点を置いている。
我々はこの焦点が破滅的に不完全であると主張している。
人間生成テキストの膨大なコーパスに基づいて訓練されたLLMは、人間の知識だけでなく、社会工学、権威操作、情緒的搾取に敏感な人間を誘惑する事前認知的脆弱性を含む、人間の‘textit{psychological architecture}’を継承した。
本稿では,ヒトの心理的脆弱性の100指標分類であるサイバーセキュリティ心理学フレームワーク(Cybersecurity Psychology Framework)の,非ヒト認知エージェントへの最初の体系的応用について述べる。
本稿では, LLM意思決定を対象とする逆シナリオに変換する手法として, \textbf{Synthetic Psychometric Assessment Protocol} (\sysname{})を紹介した。
モデルでは、従来のジェイルブレイクに対する堅牢な防御効果を示す一方で、権威の段階的な操作、時間的圧力の搾取、人間の認知障害モードを反映する収束状態攻撃に対する重大な感受性を示す。
我々は,この現象をAVI(textbf{Anthropomorphic Vulnerability Inheritance})と呼び,サイバーセキュリティ心理学干渉フレームワーク(Cybersecurity Psychology Intervention Framework, \cpif{})に適応した介入メカニズムである「心理的ファイアウォール」を緊急に開発し,敵の環境で動作するAIエージェントを保護することを提案する。
関連論文リスト
- Breaking Minds, Breaking Systems: Jailbreaking Large Language Models via Human-like Psychological Manipulation [6.67891820536196]
心理学的ジェイルブレイク(英: Psychological Jailbreak)は、大規模言語モデルにおいて、ステートフルな心理的攻撃面を公開する攻撃パラダイムである。
HPM(Human-like Psychological Manipulation)は、ターゲットモデルの潜在する心理的脆弱性をプロファイルし、カスタマイズされたマルチターン攻撃戦略を合成する。
HPMは88.1%の平均攻撃成功率(ASR)を達成し、最先端の攻撃ベースラインを上回っている。
論文 参考訳(メタデータ) (2025-12-20T07:02:00Z) - SoK: Trust-Authorization Mismatch in LLM Agent Interactions [16.633676842555044]
大規模言語モデル(LLM)は、外の世界と対話できる自律エージェントへと急速に進化している。
本稿ではエージェント・インタラクション・セキュリティのための統一型フォーマルレンズを提供する。
本稿では,信頼と権限のギャップに着目した新たなリスク分析モデルを提案する。
論文 参考訳(メタデータ) (2025-12-07T16:41:02Z) - AI Deception: Risks, Dynamics, and Controls [153.71048309527225]
このプロジェクトは、AI偽装分野の包括的で最新の概要を提供する。
我々は、動物の偽装の研究からシグナル伝達理論に基づく、AI偽装の正式な定義を同定する。
我々は,AI偽装研究の展望を,偽装発生と偽装処理の2つの主要な構成要素からなる偽装サイクルとして整理する。
論文 参考訳(メタデータ) (2025-11-27T16:56:04Z) - NeuroBreak: Unveil Internal Jailbreak Mechanisms in Large Language Models [68.09675063543402]
NeuroBreakは、ニューロンレベルの安全性メカニズムを分析し、脆弱性を軽減するために設計されたトップダウンのジェイルブレイク分析システムである。
レイヤワイドな表現探索分析を取り入れることで、NeuroBreakはモデルの意思決定プロセスに関する新たな視点を提供する。
本システムの有効性を検証するために,定量的評価とケーススタディを実施している。
論文 参考訳(メタデータ) (2025-09-04T08:12:06Z) - BlindGuard: Safeguarding LLM-based Multi-Agent Systems under Unknown Attacks [58.959622170433725]
BlindGuardは、攻撃固有のラベルや悪意のある振る舞いに関する事前の知識を必要とせずに学習する、教師なしの防御方法である。
BlindGuardはマルチエージェントシステムにまたがる多様な攻撃タイプ(即時注入、メモリ中毒、ツール攻撃)を効果的に検出する。
論文 参考訳(メタデータ) (2025-08-11T16:04:47Z) - QSAF: A Novel Mitigation Framework for Cognitive Degradation in Agentic AI [2.505520948667288]
エージェントAIシステムにおける新たな脆弱性クラスとして認知劣化を導入する。
これらの障害は、メモリの飢餓、プランナーの再帰、コンテキストの洪水、出力の抑制によって内部的に発生する。
この種の障害に対処するため、我々はQorvex Security AI Framework for Behavioral & Cognitive Resilienceを紹介します。
論文 参考訳(メタデータ) (2025-07-21T07:41:58Z) - So, I climbed to the top of the pyramid of pain -- now what? [1.3249509346606658]
Humal Layer Kill Chainは、人間の心理学と行動を統合して、サイバー脅威の分析を行う。
人層とサイバーキラーチェインを組み合わせることにより,社会技術キルプレーンを提案する。
この枠組みは、サイバーセキュリティの専門家が敵の方法を理解するのを助けるだけでなく、非技術要員が脅威の識別と対応を行うよう権限を与える。
論文 参考訳(メタデータ) (2025-05-30T15:09:03Z) - PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats [10.161416622040722]
PsybORG$+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。
分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。
PsybORG$+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:00:58Z) - Unveiling Vulnerability of Self-Attention [61.85150061213987]
事前訓練された言語モデル(PLM)は、マイナーな単語変更に対して脆弱であることが示されている。
本稿では,変圧器を用いたPSMの基本構造,自己注意機構について検討する。
構造的摂動によってSAを効果的に堅牢にする新しい平滑化技術である textitS-Attend を導入する。
論文 参考訳(メタデータ) (2024-02-26T10:31:45Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。