論文の概要: Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs
- arxiv url: http://arxiv.org/abs/2410.05304v1
- Date: Fri, 04 Oct 2024 18:14:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 14:38:10.081838
- Title: Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs
- Title(参考訳): LLMにおける対向性ロバスト性および規制適合性のための保証事例の開発
- Authors: Tomas Bueno Momcilovic, Dian Balta, Beat Buesser, Giulio Zizzo, Mark Purcell,
- Abstract要約: 我々は,大規模言語モデル(LLM)における対向ロバスト性および規制遵守のための保証事例開発のためのアプローチを開発する。
我々は、これらの攻撃を緩和し、EU AI Actへのコンプライアンスを確保することを目的とした、配置のさまざまな段階でガードレールを組み込んだ階層化されたフレームワークを提案する。
当社の手法を2つの模範的保証ケースで説明し、さまざまなコンテキストが、堅牢で準拠のAIシステムを保証するために、どのように適切な戦略を要求するかを強調した。
- 参考スコア(独自算出の注目度): 1.368472250332885
- License:
- Abstract: This paper presents an approach to developing assurance cases for adversarial robustness and regulatory compliance in large language models (LLMs). Focusing on both natural and code language tasks, we explore the vulnerabilities these models face, including adversarial attacks based on jailbreaking, heuristics, and randomization. We propose a layered framework incorporating guardrails at various stages of LLM deployment, aimed at mitigating these attacks and ensuring compliance with the EU AI Act. Our approach includes a meta-layer for dynamic risk management and reasoning, crucial for addressing the evolving nature of LLM vulnerabilities. We illustrate our method with two exemplary assurance cases, highlighting how different contexts demand tailored strategies to ensure robust and compliant AI systems.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における対向的ロバスト性および規制遵守のための保証ケースの開発手法を提案する。
自然言語タスクとコード言語タスクの両方に焦点を当てて、ジェイルブレイク、ヒューリスティックス、ランダム化に基づく敵攻撃を含む、これらのモデルが直面する脆弱性を調査します。
我々は、これらの攻撃を緩和し、EU AI Actへのコンプライアンスを確保することを目的とした、LLMデプロイメントのさまざまな段階でガードレールを組み込んだ階層化されたフレームワークを提案する。
我々のアプローチには、動的リスク管理と推論のためのメタ層が含まれており、LLM脆弱性の進化する性質に対処するために不可欠です。
当社の手法を2つの模範的保証ケースで説明し、さまざまなコンテキストが、堅牢で準拠のAIシステムを保証するために、どのように適切な戦略を要求するかを強調した。
関連論文リスト
- Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) [17.670925982912312]
Red-teamingは、大規模言語モデル(LLM)の脆弱性を特定するテクニックである。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
論文 参考訳(メタデータ) (2024-07-20T17:05:04Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Securing Large Language Models: Threats, Vulnerabilities and Responsible Practices [4.927763944523323]
大規模言語モデル(LLM)は、自然言語処理(NLP)のランドスケープを大きく変えた。
本研究は,5つのテーマの観点から,LLMに関するセキュリティとプライバシの懸念を徹底的に調査する。
本稿は, LLMの安全性とリスク管理を強化するために, 今後の研究に期待できる道筋を提案する。
論文 参考訳(メタデータ) (2024-03-19T07:10:58Z) - AdaShield: Safeguarding Multimodal Large Language Models from Structure-based Attack via Adaptive Shield Prompting [54.931241667414184]
textbfAdaptive textbfShield Promptingを提案する。これは、MLLMを構造ベースのジェイルブレイク攻撃から守るための防御プロンプトで入力をプリペイドする。
我々の手法は、構造に基づくジェイルブレイク攻撃に対するMLLMの堅牢性を一貫して改善することができる。
論文 参考訳(メタデータ) (2024-03-14T15:57:13Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。