論文の概要: Security awareness in LLM agents: the NDAI zone case
- arxiv url: http://arxiv.org/abs/2603.19011v1
- Date: Thu, 19 Mar 2026 15:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.223397
- Title: Security awareness in LLM agents: the NDAI zone case
- Title(参考訳): LLMエージェントにおけるセキュリティ意識--NDAIゾーンの場合
- Authors: Enrico Bottazzi, Pia Park,
- Abstract要約: NDAIゾーンは、発明者や投資家のエージェントがTrusted Execution Environment(TEE)内で交渉することを可能にする。
これにより、IPの完全な開示が発明者のエージェントの合理的な戦略となる。
このインフラを活用するには、安全でない環境と安全な環境を区別する必要がある。
LLMモデルは、実行環境のセキュリティを意識する上で、どのように様々な形の証拠を重み付けするのでしょうか?
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NDAI zones let inventor and investor agents negotiate inside a Trusted Execution Environment (TEE) where any disclosed information is deleted if no deal is reached. This makes full IP disclosure the rational strategy for the inventor's agent. Leveraging this infrastructure, however, requires agents to distinguish a secure environment from an insecure one, a capability LLM agents lack natively, since they can rely only on evidence passed through the context window to form awareness of their execution environment. We ask: How do different LLM models weight various forms of evidence when forming awareness of the security of their execution environment? Using an NDAI-style negotiation task across 10 language models and various evidence scenarios, we find a clear asymmetry: a failing attestation universally suppresses disclosure across all models, whereas a passing attestation produces highly heterogeneous responses: some models increase disclosure, others are unaffected, and a few paradoxically reduce it. This reveals that current LLM models can reliably detect danger signals but cannot reliably verify safety, the very capability required for privacy-preserving agentic protocols such as NDAI zones. Bridging this gap, possibly through interpretability analysis, targeted fine-tuning, or improved evidence architectures, remains the central open challenge for deploying agents that calibrate information sharing to actual evidence quality.
- Abstract(参考訳): NDAIゾーンは、発明者や投資家のエージェントがTrusted Execution Environment(TEE)内で交渉することを可能にする。
これにより、IPの完全な開示が発明者のエージェントの合理的な戦略となる。
しかし、このインフラを活用するには、エージェントが安全でない環境とLLMエージェントを区別する必要がある。
LLMモデルは、実行環境のセキュリティを意識する上で、どのように様々な形の証拠を重み付けするのでしょうか?
10の言語モデルと様々なエビデンスシナリオにまたがるNDAIスタイルのネゴシエーションタスクを用いることで、明確な非対称性を見出す: フェール証明は全モデルにわたる開示を普遍的に抑制するが、パス証明は高いヘテロジニアスな応答をもたらす: あるモデルは開示を増大させ、他のモデルは影響を受けず、いくつかのパラドックス的にそれを減少させる。
これは、現在のLLMモデルは、NDAIゾーンのようなプライバシ保護エージェントプロトコルに必要な、危険信号を確実に検出できるが、安全性を確実に検証できないことを明らかにしている。
このギャップを埋めることは、おそらくは解釈可能性の分析、ターゲットの微調整、またはエビデンスアーキテクチャの改善を通じて、情報共有を実際のエビデンス品質に調整するエージェントを配置する上で、依然として重要な課題である。
関連論文リスト
- Risk Awareness Injection: Calibrating Vision-Language Models for Safety without Compromising Utility [26.564913442069866]
視覚言語モデル(VLM)は、大きな言語モデル(LLM)の推論能力を、モード間設定に拡張する。
既存の防衛は、安全性の微調整や攻撃的なトークン操作に頼っており、相当な訓練コストや性能の大幅な低下を招いている。
安全校正のための軽量かつトレーニング不要なフレームワークであるリスク意識注入(RAI)を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:26:05Z) - Towards Verifiably Safe Tool Use for LLM Agents [53.55621104327779]
大規模言語モデル(LLM)ベースのAIエージェントは、データソース、API、検索エンジン、コードサンドボックス、さらにはその他のエージェントなどのツールへのアクセスを可能にすることで、機能を拡張する。
LLMは意図しないツールインタラクションを起動し、機密データを漏洩したり、クリティカルレコードを上書きしたりするリスクを発生させる。
モデルベースセーフガードのようなリスクを軽減するための現在のアプローチは、エージェントの信頼性を高めるが、システムの安全性を保証することはできない。
論文 参考訳(メタデータ) (2026-01-12T21:31:38Z) - Inter-Agent Trust Models: A Comparative Study of Brief, Claim, Proof, Stake, Reputation and Constraint in Agentic Web Protocol Design-A2A, AP2, ERC-8004, and Beyond [1.5755923640031846]
エージェント間プロトコル設計における信頼モデルについて検討する。
仮定、攻撃面、設計トレードオフを分析します。
我々は、より安全で相互運用可能でスケーラブルなエージェント経済のための実行可能な設計ガイドラインを蒸留する。
論文 参考訳(メタデータ) (2025-11-05T12:50:06Z) - Friend or Foe: How LLMs' Safety Mind Gets Fooled by Intent Shift Attack [53.34204977366491]
大きな言語モデル(LLM)は、印象的な機能にもかかわらず、ジェイルブレイク攻撃に対して脆弱なままである。
本稿では,攻撃意図について LLM を混乱させる ISA (Intent Shift Attack) を提案する。
私たちのアプローチでは、元の要求に対して最小限の編集しか必要とせず、自然で、可読性があり、一見無害なプロンプトをもたらす。
論文 参考訳(メタデータ) (2025-11-01T13:44:42Z) - OS-Sentinel: Towards Safety-Enhanced Mobile GUI Agents via Hybrid Validation in Realistic Workflows [77.95511352806261]
VLM(Vision-Language Models)を利用したコンピュータ利用エージェントは、モバイルプラットフォームのようなデジタル環境を操作する上で、人間のような能力を実証している。
我々は,明示的なシステムレベルの違反を検出するための形式検証器と,文脈的リスクとエージェント行動を評価するコンテキスト判断器を組み合わせた,新しいハイブリッド安全検出フレームワークOS-Sentinelを提案する。
論文 参考訳(メタデータ) (2025-10-28T13:22:39Z) - Beyond Jailbreaking: Auditing Contextual Privacy in LLM Agents [43.303548143175256]
本研究では,リスクに対するエージェントの感受性を定量的に評価する,会話プライバシのための監査フレームワークを提案する。
CMPL(Conversational Manipulation for Privacy Leakage)フレームワークは、厳格なプライバシー命令を強制するエージェントをストレステストするために設計されている。
論文 参考訳(メタデータ) (2025-06-11T20:47:37Z) - Information Retrieval Induced Safety Degradation in AI Agents [52.15553901577888]
本研究では,検索アクセスの拡大がモデル信頼性,バイアス伝搬,有害コンテンツ生成に与える影響について検討した。
整列 LLM 上に構築された検索可能なエージェントは、検索なしでの無検閲モデルよりも安全でない振る舞いをすることが多い。
これらの発見は、検索可能でますます自律的なAIシステムの公正性と信頼性を確保するための堅牢な緩和戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-05-20T11:21:40Z) - Targeting the Core: A Simple and Effective Method to Attack RAG-based Agents via Direct LLM Manipulation [4.241100280846233]
大規模言語モデル(LLM)を駆使したAIエージェントは、シームレスで自然な、コンテキスト対応のコミュニケーションを可能にすることによって、人間とコンピュータのインタラクションを変革した。
本稿では,AIエージェント内のLLMコアを標的とした敵攻撃という,重大な脆弱性について検討する。
論文 参考訳(メタデータ) (2024-12-05T18:38:30Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。