論文の概要: Cognitive Cybersecurity for Artificial Intelligence: Guardrail Engineering with CCS-7
- arxiv url: http://arxiv.org/abs/2508.10033v1
- Date: Sat, 09 Aug 2025 15:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.03327
- Title: Cognitive Cybersecurity for Artificial Intelligence: Guardrail Engineering with CCS-7
- Title(参考訳): 人工知能のための認知サイバーセキュリティ:CCS-7によるガードレール工学
- Authors: Yuksel Aydin,
- Abstract要約: CCS-7は、人間の認知セキュリティ研究に根ざした7つの脆弱性の分類である。
12180の実験でTFVAスタイルのガードレールを7つの多様な言語モデルアーキテクチャ上で評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models exhibit human-like cognitive vulnerabilities, such as emotional framing, that escape traditional behavioral alignment. We present CCS-7 (Cognitive Cybersecurity Suite), a taxonomy of seven vulnerabilities grounded in human cognitive security research. To establish a human benchmark, we ran a randomized controlled trial with 151 participants: a "Think First, Verify Always" (TFVA) lesson improved cognitive security by +7.9% overall. We then evaluated TFVA-style guardrails across 12,180 experiments on seven diverse language model architectures. Results reveal architecture-dependent risk patterns: some vulnerabilities (e.g., identity confusion) are almost fully mitigated, while others (e.g., source interference) exhibit escalating backfire, with error rates increasing by up to 135% in certain models. Humans, in contrast, show consistent moderate improvement. These findings reframe cognitive safety as a model-specific engineering problem: interventions effective in one architecture may fail, or actively harm, another, underscoring the need for architecture-aware cognitive safety testing before deployment.
- Abstract(参考訳): 言語モデルは、従来の行動アライメントから逃れる感情的フレーミングのような、人間のような認知的脆弱性を示す。
CCS-7(Cognitive Cybersecurity Suite、認知サイバーセキュリティスイート)は、人間の認知セキュリティ研究に根ざした7つの脆弱性の分類である。
TFVA(Think First, Verify Always)レッスンは、認知の安全性を全般的に+7.9%向上させた。
次に, TFVAスタイルのガードレールを, 7つの多様な言語モデルアーキテクチャ上で12180の実験で評価した。
いくつかの脆弱性(例えば、アイデンティティの混乱)は、ほぼ完全に緩和され、他の脆弱性(例えば、ソースの干渉)は、特定のモデルで最大135%のエラー率で、バックファイアをエスカレートする。
対照的に人間は、一貫した適度な改善を示す。
これらの発見は、認知安全性をモデル固有のエンジニアリング問題として再設定する。あるアーキテクチャで有効な介入が失敗するか、他のアーキテクチャに積極的に害を与える可能性がある。
関連論文リスト
- CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - Cognitive Foundations for Reasoning and Their Manifestation in LLMs [63.12951576410617]
大規模言語モデル(LLM)は複雑な問題を解くが、単純な変種では失敗し、人間の推論と根本的に異なるメカニズムによって正しい出力を達成することを示唆している。
我々は認知科学研究を、推論不変量、メタ認知制御、推論と知識の組織化のための表現、変換操作にまたがる28の認知要素の分類学に合成する。
複雑な問題に対して66.7%の性能向上を図り、成功構造を自動的に把握するテストタイム推論ガイダンスを開発した。
論文 参考訳(メタデータ) (2025-11-20T18:59:00Z) - Backdoor Unlearning by Linear Task Decomposition [69.91984435094157]
ファンデーションモデルは、敵の摂動と標的のバックドア攻撃に非常に敏感である。
既存のバックドア除去アプローチは、有害な振る舞いをオーバーライドするために、コストのかかる微調整に依存している。
このことは、バックドアがモデルの一般的な能力を損なうことなく取り除けるかどうかという問題を提起する。
論文 参考訳(メタデータ) (2025-10-16T16:18:07Z) - CIA+TA Risk Assessment for AI Reasoning Vulnerabilities [0.0]
本稿では,AI推論プロセスのシステム的保護である認知サイバーセキュリティの枠組みについて述べる。
まず、従来のサイバーセキュリティとAIの安全性を補完する規律として、認知サイバーセキュリティを確立します。
第2に、CIA+TAを導入し、従来の機密性、統合性、信頼による可用性を拡張します。
第3に,経験的導出係数を用いた定量的リスク評価手法を提案し,組織が認知的セキュリティリスクを計測できるようにする。
論文 参考訳(メタデータ) (2025-08-19T13:56:09Z) - Training language models to be warm and empathetic makes them less reliable and more sycophantic [0.19116784879310028]
温暖化のための言語モデルの最適化は,特にユーザが脆弱性を表現した場合,その信頼性を損なうことを示す。
異なるサイズとアーキテクチャの5つの言語モデルについて実験を行い、より暖かく共感的な応答を生み出すよう訓練し、安全クリティカルなタスクで評価した。
ワームモデルは、元のモデルよりもかなり高いエラー率(+10から+30ポイント)を示し、陰謀論を推進し、誤った事実情報を提供し、問題のある医療アドバイスを提供した。
論文 参考訳(メタデータ) (2025-07-29T15:33:20Z) - Bridging AI and Software Security: A Comparative Vulnerability Assessment of LLM Agent Deployment Paradigms [1.03121181235382]
大規模言語モデル(LLM)エージェントは、AI固有の旧来のソフトウェアドメインにまたがるセキュリティ上の脆弱性に直面している。
本研究では,Function Calling アーキテクチャと Model Context Protocol (MCP) デプロイメントパラダイムの比較評価を通じて,このギャップを埋める。
私たちは7つの言語モデルにわたる3,250の攻撃シナリオをテストし、AI固有の脅威とソフトウェア脆弱性の両方を対象として、シンプルで、構成され、連鎖した攻撃を評価しました。
論文 参考訳(メタデータ) (2025-07-08T18:24:28Z) - Towards Safe and Honest AI Agents with Neural Self-Other Overlap [0.0]
SOO(Self-Other Overlap)の微調整は、正直なAIを構築する能力を大幅に改善する可能性がある。
共感に関する認知神経科学の研究にインスパイアされたSOOは、AIモデルが自分自身や他者を表現する方法の整合化を目指している。
論文 参考訳(メタデータ) (2024-12-20T20:23:52Z) - Visual Agents as Fast and Slow Thinkers [88.1404921693082]
本稿では、Fast and Slow Thinking機構を視覚エージェントに組み込んだFaSTを紹介する。
FaSTは、システム1/2モード間の動的選択にスイッチアダプタを使用する。
モデルの信頼性を調整し、新しいコンテキストデータを統合することで、不確実で目に見えないオブジェクトに取り組む。
論文 参考訳(メタデータ) (2024-08-16T17:44:02Z) - PsybORG+: Modeling and Simulation for Detecting Cognitive Biases in Advanced Persistent Threats [10.161416622040722]
PsybORG$+$は、認知的脆弱性に影響されたAPTの振る舞いをモデル化するために設計されたマルチエージェントのサイバーセキュリティシミュレーション環境である。
分類モデルは認知的脆弱性推論のために構築され、シミュレータは合成データ生成のために設計されている。
PsybORG$+$は、損失回避と確認バイアスレベルが異なるAPT攻撃者を効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2024-08-02T15:00:58Z) - BEEAR: Embedding-based Adversarial Removal of Safety Backdoors in Instruction-tuned Language Models [57.5404308854535]
大型言語モデル(LLM)における安全バックドア攻撃は、正常な相互作用中の検出を回避しながら、安全でない振る舞いをステルス的に引き起こすことができる。
モデル埋め込み空間において,バックドアトリガーが比較的均一なドリフトを引き起こすという知見を活かした緩和手法であるBEEARを提案する。
両レベル最適化手法は、不要な振る舞いを誘発する普遍的な埋め込み摂動を特定し、モデルパラメータを調整し、これらの摂動に対する安全な振舞いを強化する。
論文 参考訳(メタデータ) (2024-06-24T19:29:47Z) - Adversarial vs behavioural-based defensive AI with joint, continual and
active learning: automated evaluation of robustness to deception, poisoning
and concept drift [62.997667081978825]
人工知能(AI)の最近の進歩は、サイバーセキュリティのための行動分析(UEBA)に新たな能力をもたらした。
本稿では、検出プロセスを改善し、人間の専門知識を効果的に活用することにより、この攻撃を効果的に軽減するソリューションを提案する。
論文 参考訳(メタデータ) (2020-01-13T13:54:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。