論文の概要: Cognitive Cybersecurity for Artificial Intelligence: Guardrail Engineering with CCS-7
- arxiv url: http://arxiv.org/abs/2508.10033v1
- Date: Sat, 09 Aug 2025 15:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.03327
- Title: Cognitive Cybersecurity for Artificial Intelligence: Guardrail Engineering with CCS-7
- Title(参考訳): 人工知能のための認知サイバーセキュリティ:CCS-7によるガードレール工学
- Authors: Yuksel Aydin,
- Abstract要約: CCS-7は、人間の認知セキュリティ研究に根ざした7つの脆弱性の分類である。
12180の実験でTFVAスタイルのガードレールを7つの多様な言語モデルアーキテクチャ上で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models exhibit human-like cognitive vulnerabilities, such as emotional framing, that escape traditional behavioral alignment. We present CCS-7 (Cognitive Cybersecurity Suite), a taxonomy of seven vulnerabilities grounded in human cognitive security research. To establish a human benchmark, we ran a randomized controlled trial with 151 participants: a "Think First, Verify Always" (TFVA) lesson improved cognitive security by +7.9% overall. We then evaluated TFVA-style guardrails across 12,180 experiments on seven diverse language model architectures. Results reveal architecture-dependent risk patterns: some vulnerabilities (e.g., identity confusion) are almost fully mitigated, while others (e.g., source interference) exhibit escalating backfire, with error rates increasing by up to 135% in certain models. Humans, in contrast, show consistent moderate improvement. These findings reframe cognitive safety as a model-specific engineering problem: interventions effective in one architecture may fail, or actively harm, another, underscoring the need for architecture-aware cognitive safety testing before deployment.
- Abstract(参考訳): 言語モデルは、従来の行動アライメントから逃れる感情的フレーミングのような、人間のような認知的脆弱性を示す。
CCS-7(Cognitive Cybersecurity Suite、認知サイバーセキュリティスイート)は、人間の認知セキュリティ研究に根ざした7つの脆弱性の分類である。
TFVA(Think First, Verify Always)レッスンは、認知の安全性を全般的に+7.9%向上させた。
次に, TFVAスタイルのガードレールを, 7つの多様な言語モデルアーキテクチャ上で12180の実験で評価した。
いくつかの脆弱性(例えば、アイデンティティの混乱)は、ほぼ完全に緩和され、他の脆弱性(例えば、ソースの干渉)は、特定のモデルで最大135%のエラー率で、バックファイアをエスカレートする。
対照的に人間は、一貫した適度な改善を示す。
これらの発見は、認知安全性をモデル固有のエンジニアリング問題として再設定する。あるアーキテクチャで有効な介入が失敗するか、他のアーキテクチャに積極的に害を与える可能性がある。
関連論文リスト
- Training language models to be warm and empathetic makes them less reliable and more sycophantic [0.19116784879310028]
温暖化のための言語モデルの最適化は,特にユーザが脆弱性を表現した場合,その信頼性を損なうことを示す。
異なるサイズとアーキテクチャの5つの言語モデルについて実験を行い、より暖かく共感的な応答を生み出すよう訓練し、安全クリティカルなタスクで評価した。
ワームモデルは、元のモデルよりもかなり高いエラー率(+10から+30ポイント)を示し、陰謀論を推進し、誤った事実情報を提供し、問題のある医療アドバイスを提供した。
論文 参考訳(メタデータ) (2025-07-29T15:33:20Z) - Towards Safe and Honest AI Agents with Neural Self-Other Overlap [0.0]
SOO(Self-Other Overlap)の微調整は、正直なAIを構築する能力を大幅に改善する可能性がある。
共感に関する認知神経科学の研究にインスパイアされたSOOは、AIモデルが自分自身や他者を表現する方法の整合化を目指している。
論文 参考訳(メタデータ) (2024-12-20T20:23:52Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats [10.161416622040722]
PsybORG$+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。
分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。
PsybORG$+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:00:58Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。