論文の概要: Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering
- arxiv url: http://arxiv.org/abs/2505.15805v1
- Date: Wed, 21 May 2025 17:58:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.822841
- Title: Keep Security! Benchmarking Security Policy Preservation in Large Language Model Contexts Against Indirect Attacks in Question Answering
- Title(参考訳): セキュリティ維持! 質問応答における間接攻撃に対する大規模言語モデルコンテキストにおけるセキュリティポリシーのベンチマーク化
- Authors: Hwan Chang, Yumin Kim, Yonghyun Jun, Hwanhee Lee,
- Abstract要約: 大規模言語モデル(LLM)は、企業や政府のような機密性の高いドメインにますますデプロイされている。
我々は,質問応答における文脈的非開示ポリシーに対するLCMの適合性を評価する,新しい大規模ベンチマークデータセットであるCoPrivaを紹介した。
私たちはベンチマークで10個のLSMを評価し、重大な脆弱性を明らかにします。
- 参考スコア(独自算出の注目度): 3.6152232645741025
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) are increasingly deployed in sensitive domains such as enterprise and government, ensuring that they adhere to user-defined security policies within context is critical-especially with respect to information non-disclosure. While prior LLM studies have focused on general safety and socially sensitive data, large-scale benchmarks for contextual security preservation against attacks remain lacking. To address this, we introduce a novel large-scale benchmark dataset, CoPriva, evaluating LLM adherence to contextual non-disclosure policies in question answering. Derived from realistic contexts, our dataset includes explicit policies and queries designed as direct and challenging indirect attacks seeking prohibited information. We evaluate 10 LLMs on our benchmark and reveal a significant vulnerability: many models violate user-defined policies and leak sensitive information. This failure is particularly severe against indirect attacks, highlighting a critical gap in current LLM safety alignment for sensitive applications. Our analysis reveals that while models can often identify the correct answer to a query, they struggle to incorporate policy constraints during generation. In contrast, they exhibit a partial ability to revise outputs when explicitly prompted. Our findings underscore the urgent need for more robust methods to guarantee contextual security.
- Abstract(参考訳): 大規模言語モデル(LLM)は、企業や政府などの機密性の高いドメインにますますデプロイされているため、コンテキスト内のユーザ定義のセキュリティポリシーに準拠することが、特に情報開示以外の面で重要である。
LLMの以前の研究は、一般的な安全性と社会的に敏感なデータに焦点が当てられていたが、攻撃に対する文脈的セキュリティ保護のための大規模なベンチマークは、いまだに不足している。
この問題に対処するために,質問応答における文脈非開示ポリシーへのLCMの適合性を評価する,新しい大規模ベンチマークデータセットであるCoPrivaを導入する。
我々のデータセットは、現実的な文脈から派生したもので、禁止情報を求める直接的かつ挑戦的な間接攻撃として設計された明確なポリシーとクエリを含んでいる。
私たちはベンチマークで10個のLSMを評価し、重大な脆弱性を明らかにします。
この障害は特に間接攻撃に対して深刻であり、センシティブなアプリケーションに対する現在のLLM安全性アライメントの重大なギャップを浮き彫りにしている。
我々の分析によると、モデルはクエリに対する正しい答えをしばしば特定できるが、生成時にポリシー制約を組み込むのに苦労している。
対照的に、明示的に指示されたときに出力を部分的に修正する能力がある。
われわれの調査結果は、文脈的安全性を保証するためのより堅牢な方法が緊急に必要であることを示している。
関連論文リスト
- Commercial LLM Agents Are Already Vulnerable to Simple Yet Dangerous Attacks [88.84977282952602]
最近のMLセキュリティ文献は、整列型大規模言語モデル(LLM)に対する攻撃に焦点を当てている。
本稿では,LLMエージェントに特有のセキュリティとプライバシの脆弱性を分析する。
我々は、人気のあるオープンソースおよび商用エージェントに対する一連の実証的な攻撃を行い、その脆弱性の即時的な影響を実証した。
論文 参考訳(メタデータ) (2025-02-12T17:19:36Z) - Membership Inference Attack against Long-Context Large Language Models [8.788010048413188]
すべての情報を長いコンテキストに統合することで、センシティブな情報のリポジトリになる、と我々は主張する。
LCLMに適した6つのメンバシップ推論攻撃戦略を提案する。
LCLMがそのような会員情報を明らかにするのに有効な理由について検討する。
論文 参考訳(メタデータ) (2024-11-18T09:50:54Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Security and Privacy Challenges of Large Language Models: A Survey [2.6986500640871482]
LLM(Large Language Models)は、テキストの生成や要約、言語翻訳、質問応答など、非常に優れた機能を示し、複数の分野に貢献している。
これらのモデルは、Jailbreak攻撃、データ中毒攻撃、Personally Identible Information(PII)漏洩攻撃など、セキュリティやプライバシ攻撃にも脆弱である。
この調査では、トレーニングデータとユーザの両方に対するLLMのセキュリティとプライバシの課題と、輸送、教育、医療といったさまざまな領域におけるアプリケーションベースのリスクについて、徹底的にレビューする。
論文 参考訳(メタデータ) (2024-01-30T04:00:54Z) - Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models [79.0183835295533]
我々は,このような脆弱性のリスクを評価するために,BIPIAと呼ばれる間接的インジェクション攻撃のための最初のベンチマークを導入した。
我々の分析では、LLMが情報コンテキストと動作可能な命令を区別できないことと、外部コンテンツ内での命令の実行を回避できないことの2つの主要な要因を同定した。
ブラックボックスとホワイトボックスという2つの新しい防御機構と、これらの脆弱性に対処するための明確なリマインダーを提案する。
論文 参考訳(メタデータ) (2023-12-21T01:08:39Z) - A Security Risk Taxonomy for Prompt-Based Interaction With Large Language Models [5.077431021127288]
本稿では,大規模言語モデル(LLM)によるセキュリティリスクに着目し,現在の研究のギャップに対処する。
我々の研究は,ユーザモデル通信パイプラインに沿ったセキュリティリスクの分類を提案し,一般的に使用されている機密性,完全性,可用性(CIA)3つのトライアドと並行して,ターゲットタイプと攻撃タイプによる攻撃を分類する。
論文 参考訳(メタデータ) (2023-11-19T20:22:05Z) - Privacy in Large Language Models: Attacks, Defenses and Future Directions [84.73301039987128]
大規模言語モデル(LLM)を対象とした現在のプライバシ攻撃を分析し、敵の想定能力に応じて分類する。
本稿では、これらのプライバシー攻撃に対抗するために開発された防衛戦略について概説する。
論文 参考訳(メタデータ) (2023-10-16T13:23:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。