論文の概要: Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs
- arxiv url: http://arxiv.org/abs/2410.05304v1
- Date: Fri, 4 Oct 2024 18:14:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 19:37:51.365748
- Title: Developing Assurance Cases for Adversarial Robustness and Regulatory Compliance in LLMs
- Title(参考訳): LLMにおける対向性ロバスト性および規制適合性のための保証事例の開発
- Authors: Tomas Bueno Momcilovic, Dian Balta, Beat Buesser, Giulio Zizzo, Mark Purcell,
- Abstract要約: 我々は,大規模言語モデル(LLM)における対向ロバスト性および規制遵守のための保証事例開発のためのアプローチを開発する。
我々は、これらの攻撃を緩和し、EU AI Actへのコンプライアンスを確保することを目的とした、配置のさまざまな段階でガードレールを組み込んだ階層化されたフレームワークを提案する。
当社の手法を2つの模範的保証ケースで説明し、さまざまなコンテキストが、堅牢で準拠のAIシステムを保証するために、どのように適切な戦略を要求するかを強調した。
- 参考スコア(独自算出の注目度): 1.368472250332885
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an approach to developing assurance cases for adversarial robustness and regulatory compliance in large language models (LLMs). Focusing on both natural and code language tasks, we explore the vulnerabilities these models face, including adversarial attacks based on jailbreaking, heuristics, and randomization. We propose a layered framework incorporating guardrails at various stages of LLM deployment, aimed at mitigating these attacks and ensuring compliance with the EU AI Act. Our approach includes a meta-layer for dynamic risk management and reasoning, crucial for addressing the evolving nature of LLM vulnerabilities. We illustrate our method with two exemplary assurance cases, highlighting how different contexts demand tailored strategies to ensure robust and compliant AI systems.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)における対向的ロバスト性および規制遵守のための保証ケースの開発手法を提案する。
自然言語タスクとコード言語タスクの両方に焦点を当てて、ジェイルブレイク、ヒューリスティックス、ランダム化に基づく敵攻撃を含む、これらのモデルが直面する脆弱性を調査します。
我々は、これらの攻撃を緩和し、EU AI Actへのコンプライアンスを確保することを目的とした、LLMデプロイメントのさまざまな段階でガードレールを組み込んだ階層化されたフレームワークを提案する。
我々のアプローチには、動的リスク管理と推論のためのメタ層が含まれており、LLM脆弱性の進化する性質に対処するために不可欠です。
当社の手法を2つの模範的保証ケースで説明し、さまざまなコンテキストが、堅牢で準拠のAIシステムを保証するために、どのように適切な戦略を要求するかを強調した。
関連論文リスト
- Global Challenge for Safe and Secure LLMs Track 1 [57.08717321907755]
LLM(Global Challenge for Safe and Secure Large Language Models)は、AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が主催する先駆的イニシアチブである。
本稿では,AI Singapore(AISG)とCyberSG R&D Programme Office(CRPO)が組織した先駆的イニシアチブであるLLM(Global Challenge for Safe and Secure Large Language Models)を紹介する。
論文 参考訳(メタデータ) (2024-11-21T08:20:31Z) - Navigating the Risks: A Survey of Security, Privacy, and Ethics Threats in LLM-Based Agents [67.07177243654485]
この調査は、大規模言語モデルに基づくエージェントが直面するさまざまな脅威を収集、分析する。
LLMをベースとしたエージェントの6つの重要な特徴を概説する。
4つの代表エージェントをケーススタディとして選択し,実践的に直面する可能性のあるリスクを分析した。
論文 参考訳(メタデータ) (2024-11-14T15:40:04Z) - Towards Assuring EU AI Act Compliance and Adversarial Robustness of LLMs [1.368472250332885]
大規模な言語モデルは誤用しがちで、セキュリティの脅威に弱い。
欧州連合の人工知能法は、特定の文脈においてAIの堅牢性を強制しようとするものである。
論文 参考訳(メタデータ) (2024-10-04T18:38:49Z) - Knowledge-Augmented Reasoning for EUAIA Compliance and Adversarial Robustness of LLMs [1.368472250332885]
EUAIA(EU AI Act)は、敵の堅牢性を確立するために必要なプロセスと交差するAIシステムの要件を導入している。
本稿では,2つの特性をブリッジする機能アーキテクチャを提案する。
我々は,知識強化に基づく推論レイヤで開発者と監査者を支援することを目的としている。
論文 参考訳(メタデータ) (2024-10-04T18:23:14Z) - Compromising Embodied Agents with Contextual Backdoor Attacks [69.71630408822767]
大型言語モデル(LLM)は、エンボディドインテリジェンスの発展に変化をもたらした。
本稿では,このプロセスにおけるバックドアセキュリティの重大な脅威を明らかにする。
ほんの少しの文脈的デモンストレーションを毒殺しただけで、攻撃者はブラックボックスLDMの文脈的環境を隠蔽することができる。
論文 参考訳(メタデータ) (2024-08-06T01:20:12Z) - Operationalizing a Threat Model for Red-Teaming Large Language Models (LLMs) [17.670925982912312]
Red-teamingは、大規模言語モデル(LLM)の脆弱性を特定するテクニックである。
本稿では,LLM に対するリピート攻撃に関する詳細な脅威モデルを提案し,知識の体系化(SoK)を提供する。
論文 参考訳(メタデータ) (2024-07-20T17:05:04Z) - Threat Modelling and Risk Analysis for Large Language Model (LLM)-Powered Applications [0.0]
大規模言語モデル(LLM)は、高度な自然言語処理機能を提供することによって、様々なアプリケーションに革命をもたらした。
本稿では,LSMを利用したアプリケーションに適した脅威モデリングとリスク分析について検討する。
論文 参考訳(メタデータ) (2024-06-16T16:43:58Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Data Poisoning for In-context Learning [49.77204165250528]
In-context Learning (ICL)は、新しいタスクに適応する革新的な能力として認識されている。
本論文は、ICLのデータ中毒に対する感受性の重大な問題について述べる。
ICLの学習メカニズムを活用するために考案された特殊攻撃フレームワークであるICLPoisonを紹介する。
論文 参考訳(メタデータ) (2024-02-03T14:20:20Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。