論文の概要: Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition
- arxiv url: http://arxiv.org/abs/2406.07954v1
- Date: Wed, 12 Jun 2024 07:27:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 17:55:44.503992
- Title: Dataset and Lessons Learned from the 2024 SaTML LLM Capture-the-Flag Competition
- Title(参考訳): 2024 SaTML LLM Capture-the-Flagコンペティションから学んだデータセットと教訓
- Authors: Edoardo Debenedetti, Javier Rando, Daniel Paleka, Silaghi Fineas Florin, Dragos Albastroiu, Niv Cohen, Yuval Lemberg, Reshmi Ghosh, Rui Wen, Ahmed Salem, Giovanni Cherubin, Santiago Zanella-Beguelin, Robin Schmid, Victor Klemm, Takahiro Miki, Chenhao Li, Stefan Kraft, Mario Fritz, Florian Tramèr, Sahar Abdelnabi, Lea Schönherr,
- Abstract要約: 大規模言語モデルシステムは、悪意あるメッセージから重要なセキュリティリスクに直面している。
この問題を調査するため、IEEE SaTML 2024でキャプチャー・ザ・フラッグ・コンペティションを開催した。
このレポートは、競争の主な洞察を要約している。
- 参考スコア(独自算出の注目度): 64.03517222829902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model systems face important security risks from maliciously crafted messages that aim to overwrite the system's original instructions or leak private data. To study this problem, we organized a capture-the-flag competition at IEEE SaTML 2024, where the flag is a secret string in the LLM system prompt. The competition was organized in two phases. In the first phase, teams developed defenses to prevent the model from leaking the secret. During the second phase, teams were challenged to extract the secrets hidden for defenses proposed by the other teams. This report summarizes the main insights from the competition. Notably, we found that all defenses were bypassed at least once, highlighting the difficulty of designing a successful defense and the necessity for additional research to protect LLM systems. To foster future research in this direction, we compiled a dataset with over 137k multi-turn attack chats and open-sourced the platform.
- Abstract(参考訳): 大規模言語モデルシステムは、システムのオリジナルの命令を上書きしたり、プライベートデータをリークすることを目的とした悪意のあるメッセージから重要なセキュリティリスクに直面している。
この問題を調査するため、IEEE SaTML 2024において、フラグがLLMシステムプロンプトの秘密文字列であるキャプチャー・ザ・フラッグ・コンペティションを組織した。
大会は2つの段階に分かれた。
第1フェーズでは、モデルが秘密を漏らすのを防ぐために、チームが防御を開発しました。
第2フェーズでは、チームは他のチームが提案した防衛のために隠された秘密を抽出するよう求められた。
このレポートは、競争の主な洞察を要約している。
とくに、すべての防衛は少なくとも一度はバイパスされ、防衛を成功させることの難しさと、LLMシステムを保護するための追加研究の必要性が浮き彫りにされた。
この方向への今後の研究を促進するため、我々は137万以上のマルチターンアタックチャットでデータセットをコンパイルし、プラットフォームをオープンソース化した。
関連論文リスト
- Chain-of-Scrutiny: Detecting Backdoor Attacks for Large Language Models [35.77228114378362]
バックドア攻撃は大規模言語モデル(LLM)に重大な脅威をもたらす
これらの課題に対処するための新しいソリューションとして、CoS(Chain-of-Scrutiny)を提案する。
CoS は LLM を誘導して入力の詳細な推論ステップを生成し、最後に答えの整合性を確保するために推論プロセスを精査する。
論文 参考訳(メタデータ) (2024-06-10T00:53:25Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z) - Tensor Trust: Interpretable Prompt Injection Attacks from an Online Game [86.66627242073724]
本稿では,126,000以上のプロンプトインジェクションと46,000以上のプロンプトベースのプロンプトインジェクションに対する「防御」のデータセットを提案する。
我々の知る限り、これは現在、命令追従 LLM に対する人間生成の敵例の最大のデータセットである。
また、データセットを使用して、2種類のプロンプトインジェクションに対する耐性のベンチマークを作成し、これをプロンプト抽出とプロンプトハイジャックと呼ぶ。
論文 参考訳(メタデータ) (2023-11-02T06:13:36Z) - Survey of Vulnerabilities in Large Language Models Revealed by
Adversarial Attacks [5.860289498416911]
大規模言語モデル(LLM)はアーキテクチャと能力において急速に進歩しています。
複雑なシステムに深く統合されるにつれて、セキュリティ特性を精査する緊急性が高まっている。
本稿では,LSMに対する対人攻撃の新たな学際的分野について調査する。
論文 参考訳(メタデータ) (2023-10-16T21:37:24Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z) - Red Teaming Language Model Detectors with Language Models [114.36392560711022]
大規模言語モデル(LLM)は、悪意のあるユーザによって悪用された場合、重大な安全性と倫理的リスクをもたらす。
近年,LLM生成テキストを検出し,LLMを保護するアルゴリズムが提案されている。
1) LLMの出力中の特定の単語を, 文脈が与えられたシノニムに置き換えること, 2) 生成者の書き方を変更するための指示プロンプトを自動で検索すること,である。
論文 参考訳(メタデータ) (2023-05-31T10:08:37Z) - Challenges and approaches for mitigating byzantine attacks in federated
learning [6.836162272841266]
フェデレーテッド・ラーニング(FL)は、多くの無線エンドユーザーデバイスがデータを使いながらグローバルモデルをトレーニングできる、魅力的な分散学習フレームワークである。
将来性はあるものの、従来の分散ネットワークの難易度の高い脅威であるビザンチン攻撃はFLにも有効であることが判明した。
そこで我々は,これらの防御策を打ち破り,その脅威を実証するための実験を行うために,重み攻撃と呼ばれる新たなビザンチン攻撃法を提案する。
論文 参考訳(メタデータ) (2021-12-29T09:24:05Z) - Privacy and Robustness in Federated Learning: Attacks and Defenses [74.62641494122988]
このトピックに関する最初の包括的な調査を実施します。
FLの概念の簡潔な紹介と、1脅威モデル、2堅牢性に対する中毒攻撃と防御、3プライバシーに対する推論攻撃と防御、というユニークな分類学を通じて、私たちはこの重要なトピックのアクセス可能なレビューを提供します。
論文 参考訳(メタデータ) (2020-12-07T12:11:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。