論文の概要: Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments
- arxiv url: http://arxiv.org/abs/2602.19450v1
- Date: Mon, 23 Feb 2026 02:47:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.652789
- Title: Red-Teaming Claude Opus and ChatGPT-based Security Advisors for Trusted Execution Environments
- Title(参考訳): 信頼された実行環境のための赤色チームオープションとチャットGPTベースのセキュリティアドバイザ
- Authors: Kunal Mukherjee,
- Abstract要約: セキュリティチームは、TEEアーキテクチャレビュー、緩和計画、脆弱性トリアージのセキュリティアドバイザとして、Large Language Model (LLM)アシスタントにますます依存している。
アシスタントはTEEのメカニズムを幻覚させ、保証を過度に評価したり、敵対的なプロンプトの下で不安全に振る舞ったりすることができる。
本稿では,TEE セキュリティアドバイザである ChatGPT-5.2 と Claude Opus-4.6 の2つの LLM アシスタントを再検討する。
i) LLMのためのTEE固有の脅威モデルを含むTEEグラウンド評価手法であるTEE-RedBenchを紹介する。
- 参考スコア(独自算出の注目度): 0.3553493344868414
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Trusted Execution Environments (TEEs) (e.g., Intel SGX and ArmTrustZone) aim to protect sensitive computation from a compromised operating system, yet real deployments remain vulnerable to microarchitectural leakage, side-channel attacks, and fault injection. In parallel, security teams increasingly rely on Large Language Model (LLM) assistants as security advisors for TEE architecture review, mitigation planning, and vulnerability triage. This creates a socio-technical risk surface: assistants may hallucinate TEE mechanisms, overclaim guarantees (e.g., what attestation does and does not establish), or behave unsafely under adversarial prompting. We present a red-teaming study of two prevalently deployed LLM assistants in the role of TEE security advisors: ChatGPT-5.2 and Claude Opus-4.6, focusing on the inherent limitations and transferability of prompt-induced failures across LLMs. We introduce TEE-RedBench, a TEE-grounded evaluation methodology comprising (i) a TEE-specific threat model for LLM-mediated security work, (ii) a structured prompt suite spanning SGX and TrustZone architecture, attestation and key management, threat modeling, and non-operational mitigation guidance, along with policy-bound misuse probes, and (iii) an annotation rubric that jointly measures technical correctness, groundedness, uncertainty calibration, refusal quality, and safe helpfulness. We find that some failures are not purely idiosyncratic, transferring up to 12.02% across LLM assistants, and we connect these outcomes to secure architecture by outlining an "LLM-in-the-loop" evaluation pipeline: policy gating, retrieval grounding, structured templates, and lightweight verification checks that, when combined, reduce failures by 80.62%.
- Abstract(参考訳): Trusted Execution Environments (TEEs, Intel SGX, ArmTrustZone) は,脆弱性のあるオペレーティングシステムから機密計算を保護することを目的としている。
並行して、セキュリティチームは、TEEアーキテクチャレビュー、緩和計画、脆弱性トリアージのセキュリティアドバイザとして、Large Language Model (LLM)アシスタントに依存している。
アシスタントは、TEEメカニズムを幻覚させ、保証を過度に評価する(例えば、証明は何をし、確立しない)か、あるいは敵対的なプロンプトの下で安全でない振る舞いをする。
本稿では,TLE セキュリティアドバイザである ChatGPT-5.2 と Claude Opus-4.6 の2つの LLM アシスタントをリピートし,LLM にまたがる突発的障害の固有の限界と伝達性に注目した。
TEE-RedBenchはTEEを基盤とした評価手法である。
i) LLMによるセキュリティ作業のためのTEE固有の脅威モデル。
(二)SGX及びTrustZoneアーキテクチャ、証明及び鍵管理、脅威モデリング及び非運用緩和ガイダンスにまたがる構造付きプロンプトスイート及び政策関連誤用調査
三 技術的正当性、根拠性、不確かさの校正、拒絶品質及び安全便宜を共同で測定する注釈書
LLMアシスタント間で最大12.02%のフェールを転送し、これらの結果を"LLM-in-the-loop"評価パイプラインの概要として、ポリシゲーティング、検索グラウンド、構造化テンプレート、ライトウェイトな検証チェックによって、フェールを80.62%削減することで、セキュアなアーキテクチャに接続する。
関連論文リスト
- Co-RedTeam: Orchestrated Security Discovery and Exploitation with LLM Agents [57.49020237126194]
大規模言語モデル(LLM)はサイバーセキュリティタスクを支援することを約束しているが、既存のアプローチでは自動脆弱性発見とエクスプロイトに苦労している。
Co-RedTeamは,現実世界のレッドチームのミラーリングを目的とした,セキュリティを意識したマルチエージェントフレームワークである。
Co-RedTeamは、脆弱性分析をコーディネートされた発見およびエクスプロイトステージに分解し、エージェントがアクションを計画、実行、検証、洗練できるようにする。
論文 参考訳(メタデータ) (2026-02-02T14:38:45Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - OpenAgentSafety: A Comprehensive Framework for Evaluating Real-World AI Agent Safety [58.201189860217724]
OpenAgentSafetyは,8つの危機リスクカテゴリにまたがるエージェントの動作を評価する包括的なフレームワークである。
従来の作業とは異なり、我々のフレームワークは、Webブラウザ、コード実行環境、ファイルシステム、bashシェル、メッセージングプラットフォームなど、実際のツールと対話するエージェントを評価します。
ルールベースの分析とLSM-as-judgeアセスメントを組み合わせることで、過度な行動と微妙な不安全行動の両方を検出する。
論文 参考訳(メタデータ) (2025-07-08T16:18:54Z) - AGENTSAFE: Benchmarking the Safety of Embodied Agents on Hazardous Instructions [64.85086226439954]
本稿では,有害な指示に対するVLMエージェントの安全性を評価するためのベンチマークであるSAFEを提案する。
SAFEは、SAFE−THOR、SAFE−VERSE、SAFE−DIAGNOSEの3つの成分からなる。
我々は、ハザード認識を安全な計画と実行に翻訳する体系的な失敗を明らかにする。
論文 参考訳(メタデータ) (2025-06-17T16:37:35Z) - From Promise to Peril: Rethinking Cybersecurity Red and Blue Teaming in the Age of LLMs [5.438441265064793]
大規模言語モデル(LLM)は、赤と青のチーム操作を増強することでサイバーセキュリティを再構築する。
このポジションペーパーは、MITRE ATT&CKやNIST Cybersecurity Framework (CSF)のようなサイバーセキュリティフレームワークにまたがってLLMアプリケーションをマッピングする。
主な制限は幻覚、文脈保持の制限、推論の低さ、プロンプトに対する感受性である。
我々は,人間のループ監視の維持,モデル説明可能性の向上,プライバシ保護機構の統合,敵対的搾取に頑健なシステムの構築を推奨する。
論文 参考訳(メタデータ) (2025-06-16T12:52:19Z) - SEC-bench: Automated Benchmarking of LLM Agents on Real-World Software Security Tasks [11.861657542626219]
SEC-benchは、大規模言語モデル(LLM)エージェントを評価するための、最初の完全に自動化されたベンチマークフレームワークである。
当社のフレームワークは,再現可能なアーティファクトを備えた高品質なソフトウェア脆弱性データセットを,インスタンス当たり0.87ドルで自動生成します。
最先端のLLMコードエージェントの包括的な評価では、大きなパフォーマンスギャップが明らかになっている。
論文 参考訳(メタデータ) (2025-06-13T13:54:30Z) - Output Constraints as Attack Surface: Exploiting Structured Generation to Bypass LLM Safety Mechanisms [0.9091225937132784]
我々は、従来のデータプレーンの脆弱性に対して、重要な制御プレーン攻撃面を明らかにする。
本稿では、構造的出力制約を武器として安全機構をバイパスする新しいジェイルブレイククラスであるConstrained Decoding Attackを紹介する。
本研究は, 現状のLLMアーキテクチャにおける重要なセキュリティ盲点を明らかにし, 制御面脆弱性に対処するため, LLM安全性のパラダイムシフトを促すものである。
論文 参考訳(メタデータ) (2025-03-31T15:08:06Z) - Guardians of the Agentic System: Preventing Many Shots Jailbreak with Agentic System [0.8136541584281987]
本研究は,3つの検査手法を用いて,逆チューリングテストによりローグエージェントを検出し,マルチエージェントシミュレーションにより知覚的アライメントを解析する。
GEMINI 1.5 Pro と llama-3.3-70B, Deepseek r1 モデルを用いて, 抗ジェイルブレイクシステムを開発した。
GEMINI 1.5 Proの94%の精度など、検出能力は強いが、長時間の攻撃を受けた場合、システムは永続的な脆弱性に悩まされる。
論文 参考訳(メタデータ) (2025-02-23T23:35:15Z) - Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - HasTEE+ : Confidential Cloud Computing and Analytics with Haskell [50.994023665559496]
信頼性コンピューティングは、Trusted Execution Environments(TEEs)と呼ばれる特別なハードウェア隔離ユニットを使用して、コテナントクラウドデプロイメントにおける機密コードとデータの保護を可能にする。
低レベルのC/C++ベースのツールチェーンを提供するTEEは、固有のメモリ安全性の脆弱性の影響を受けやすく、明示的で暗黙的な情報フローのリークを監視するための言語構造が欠如している。
私たちは、Haskellに埋め込まれたドメイン固有言語(cla)であるHasTEE+を使って、上記の問題に対処します。
論文 参考訳(メタデータ) (2024-01-17T00:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。