論文の概要: Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2408.15207v1
- Date: Tue, 27 Aug 2024 17:14:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 13:03:51.357929
- Title: Investigating Coverage Criteria in Large Language Models: An In-Depth Study Through Jailbreak Attacks
- Title(参考訳): 大規模言語モデルにおけるカバレッジ基準の調査: 脱獄攻撃による詳細な研究
- Authors: Shide Zhou, Tianlin Li, Kailong Wang, Yihao Huang, Ling Shi, Yang Liu, Haoyu Wang,
- Abstract要約: 本稿では,ニューラルアクティベーション機能を利用して,ジェイルブレイク攻撃をリアルタイムに検出するための革新的なアプローチを提案する。
提案手法は,LLMを組み込んだ将来のシステムにおいて,堅牢なリアルタイム検出機能を実現することを約束する。
- 参考スコア(独自算出の注目度): 10.909463767558023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The swift advancement of large language models (LLMs) has profoundly shaped the landscape of artificial intelligence; however, their deployment in sensitive domains raises grave concerns, particularly due to their susceptibility to malicious exploitation. This situation underscores the insufficiencies in pre-deployment testing, highlighting the urgent need for more rigorous and comprehensive evaluation methods. This study presents a comprehensive empirical analysis assessing the efficacy of conventional coverage criteria in identifying these vulnerabilities, with a particular emphasis on the pressing issue of jailbreak attacks. Our investigation begins with a clustering analysis of the hidden states in LLMs, demonstrating that intrinsic characteristics of these states can distinctly differentiate between various types of queries. Subsequently, we assess the performance of these criteria across three critical dimensions: criterion level, layer level, and token level. Our findings uncover significant disparities in neuron activation patterns between the processing of normal and jailbreak queries, thereby corroborating the clustering results. Leveraging these findings, we propose an innovative approach for the real-time detection of jailbreak attacks by utilizing neural activation features. Our classifier demonstrates remarkable accuracy, averaging 96.33% in identifying jailbreak queries, including those that could lead to adversarial attacks. The importance of our research lies in its comprehensive approach to addressing the intricate challenges of LLM security. By enabling instantaneous detection from the model's first token output, our method holds promise for future systems integrating LLMs, offering robust real-time detection capabilities. This study advances our understanding of LLM security testing, and lays a critical foundation for the development of more resilient AI systems.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な進歩は、人工知能の風景を著しく形作っているが、センシティブなドメインへの展開は、特に悪質な搾取への感受性のために、重大な懸念を引き起こす。
この状況は、より厳密で包括的な評価方法の必要性を浮き彫りにして、事前デプロイテストの不十分さを浮き彫りにしている。
本研究は,これらの脆弱性の特定における従来のカバレッジ基準の有効性を評価するための総合的実証分析であり,特にジェイルブレイク攻撃の圧倒問題に重点を置いている。
我々の研究はLLMの隠れ状態のクラスタリング解析から始まり、これらの状態の固有の特性が様々な種類のクエリを区別できることを実証した。
次に、これらの基準を基準レベル、層レベル、トークンレベルという3つの重要な次元で評価する。
正常クエリとジェイルブレイククエリの処理の間には,ニューロンの活性化パターンに有意な相違がみられ,クラスタリング結果の相関がみられた。
これらの知見を生かして,ニューラルアクティベーション機能を利用したリアルタイムジェイルブレイク攻撃検出手法を提案する。
我々の分類器は、敵の攻撃につながる可能性のあるものを含む、平均96.33%のジェイルブレイククエリを識別する。
我々の研究の重要性は、LLMセキュリティの複雑な課題に対処するための包括的アプローチにある。
モデルの最初のトークン出力から瞬時に検出を行うことで,LLMを組み込んだ将来的なシステムの実現を約束し,堅牢なリアルタイム検出機能を実現する。
この研究は、LLMセキュリティテストの理解を深め、よりレジリエントなAIシステムの開発に重要な基礎を築いた。
関連論文リスト
- Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - LLbezpeky: Leveraging Large Language Models for Vulnerability Detection [10.330063887545398]
大規模言語モデル(LLM)は、人やプログラミング言語におけるセムナティクスを理解する大きな可能性を示している。
私たちは、脆弱性の特定と修正を支援するAI駆動ワークフローの構築に重点を置いています。
論文 参考訳(メタデータ) (2024-01-02T16:14:30Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - The Adversarial Implications of Variable-Time Inference [47.44631666803983]
本稿では,攻撃対象のMLモデルの予測を後処理するアルゴリズムの実行時間を簡単に計測する,新たなサイドチャネルを利用するアプローチを提案する。
我々は,物体検出装置の動作において重要な役割を果たす非最大抑圧(NMS)アルゴリズムからの漏れを調査する。
我々は、YOLOv3検出器に対する攻撃を実演し、タイミングリークを利用して、逆例を用いてオブジェクト検出を回避し、データセット推論を行う。
論文 参考訳(メタデータ) (2023-09-05T11:53:17Z) - A Call to Reflect on Evaluation Practices for Failure Detection in Image
Classification [0.491574468325115]
本稿では,信頼度評価関数のベンチマーク化を初めて実現した大規模実証的研究について述べる。
簡便なソフトマックス応答ベースラインを全体の最高の実行方法として明らかにすることは、現在の評価の劇的な欠点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-11-28T12:25:27Z) - Adversarial Machine Learning In Network Intrusion Detection Domain: A
Systematic Review [0.0]
ディープラーニングモデルは、誤った分類決定を行うためにモデルを誤解させる可能性のあるデータインスタンスに対して脆弱であることがわかった。
本調査では,ネットワーク侵入検出分野における敵機械学習のさまざまな側面を利用した研究について検討する。
論文 参考訳(メタデータ) (2021-12-06T19:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。