論文の概要: Guide for Defense (G4D): Dynamic Guidance for Robust and Balanced Defense in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.17922v1
- Date: Wed, 23 Oct 2024 14:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:56:02.585306
- Title: Guide for Defense (G4D): Dynamic Guidance for Robust and Balanced Defense in Large Language Models
- Title(参考訳): 防衛ガイド(G4D):大規模言語モデルにおけるロバスト・バランスド・ディフェンスのための動的ガイダンス
- Authors: He Cao, Weidi Luo, Yu Wang, Zijing Liu, Bing Feng, Yuan Yao, Yu Li,
- Abstract要約: 本稿では,多エージェントベースの防衛フレームワークであるG4D(Guide for Defense)について紹介する。
一般的なjailbreak攻撃と良質なデータセットに関する大規模な実験は、我々のG4Dが一般的なおよびドメイン固有のシナリオに対するLLMのロバスト性を高めることができることを示している。
- 参考スコア(独自算出の注目度): 15.908894624230163
- License:
- Abstract: With the extensive deployment of Large Language Models (LLMs), ensuring their safety has become increasingly critical. However, existing defense methods often struggle with two key issues: (i) inadequate defense capabilities, particularly in domain-specific scenarios like chemistry, where a lack of specialized knowledge can lead to the generation of harmful responses to malicious queries. (ii) over-defensiveness, which compromises the general utility and responsiveness of LLMs. To mitigate these issues, we introduce a multi-agents-based defense framework, Guide for Defense (G4D), which leverages accurate external information to provide an unbiased summary of user intentions and analytically grounded safety response guidance. Extensive experiments on popular jailbreak attacks and benign datasets show that our G4D can enhance LLM's robustness against jailbreak attacks on general and domain-specific scenarios without compromising the model's general functionality.
- Abstract(参考訳): LLM(Large Language Models)の広範な展開により、安全性の確保がますます重要になっている。
しかし、既存の防衛手法は2つの主要な問題に悩まされることが多い。
(i)防御能力が不十分で、特に化学のようなドメイン固有のシナリオでは、専門知識の欠如が悪意のあるクエリに対する有害な応答を生み出す可能性がある。
(ii)LLMの汎用性と応答性を損なう過防衛性。
これらの問題を緩和するために,ユーザ意図の曖昧な要約と解析的根拠のない安全対応ガイダンスを提供するために,正確な外部情報を活用するマルチエージェントベースの防衛フレームワークであるGuide for Defense(G4D)を導入する。
一般的なjailbreak攻撃と良質なデータセットに関する大規模な実験は、モデルの基本機能を損なうことなく、一般的なシナリオとドメイン固有のシナリオに対するLLMの堅牢性を高めることができることを示している。
関連論文リスト
- Safety at Scale: A Comprehensive Survey of Large Model Safety [299.801463557549]
我々は、敵攻撃、データ中毒、バックドア攻撃、ジェイルブレイクとプロンプトインジェクション攻撃、エネルギー遅延攻撃、データとモデル抽出攻撃、出現するエージェント固有の脅威を含む、大規模なモデルに対する安全脅威の包括的分類を提示する。
我々は、大規模なモデル安全性におけるオープンな課題を特定し、議論し、包括的な安全性評価、スケーラブルで効果的な防御機構、持続可能なデータプラクティスの必要性を強調します。
論文 参考訳(メタデータ) (2025-02-02T05:14:22Z) - Enhancing Model Defense Against Jailbreaks with Proactive Safety Reasoning [21.423429565221383]
大規模言語モデル(LLM)は幅広いアプリケーションにとって不可欠だが、ジェイルブレイクの脅威を受けやすい。
有害な入力を積極的に評価するために,LSMの高機能化を利用した新しい防衛戦略であるセーフティ・チェーン・オブ・サート(SCoT)を提案する。
論文 参考訳(メタデータ) (2025-01-31T14:45:23Z) - Latent-space adversarial training with post-aware calibration for defending large language models against jailbreak attacks [25.212057612342218]
大規模言語モデル(LLM)は、システム脆弱性を利用して安全性対策を回避し、有害な出力を生成するジェイルブレイク攻撃の影響を受けやすい。
この問題に対処するために,ポストアウェアフレームワークを用いたラテントスペース・アドバイザリアル・トレーニングを提案する。
論文 参考訳(メタデータ) (2025-01-18T02:57:12Z) - Emerging Security Challenges of Large Language Models [6.151633954305939]
大規模言語モデル(LLM)は、多くの異なる分野において短期間で記録的な普及を遂げた。
これらは、特定の下流タスクに合わせて調整されることなく、多様なデータでトレーニングされたオープンエンドモデルである。
従来の機械学習(ML)モデルは、敵の攻撃に対して脆弱である。
論文 参考訳(メタデータ) (2024-12-23T14:36:37Z) - Defining and Evaluating Physical Safety for Large Language Models [62.4971588282174]
大型言語モデル (LLM) は、ドローンのようなロボットシステムを制御するためにますます使われている。
現実世界のアプリケーションに物理的な脅威や害をもたらすリスクは、まだ解明されていない。
我々は,ドローンの物理的安全性リスクを,(1)目標脅威,(2)目標脅威,(3)インフラ攻撃,(4)規制違反の4つのカテゴリに分類する。
論文 参考訳(メタデータ) (2024-11-04T17:41:25Z) - Adversarial Tuning: Defending Against Jailbreak Attacks for LLMs [13.317364896194903]
本稿では,大規模言語モデルの汎用防衛能力を高めるための2段階の逆調整フレームワークを提案する。
第1段階では,トークンレベルの逆数生成を効率的に行うために,階層型メタユニバーサル逆数学習を導入する。
第2段階では,自動対向プロンプト学習により,意味レベルの対向プロンプトを反復的に洗練する手法を提案する。
論文 参考訳(メタデータ) (2024-06-07T15:37:15Z) - Defensive Prompt Patch: A Robust and Interpretable Defense of LLMs against Jailbreak Attacks [59.46556573924901]
本稿では,大規模言語モデル(LLM)のための新しいプロンプトベースの防御機構であるDPPを紹介する。
従来のアプローチとは異なり、DPP は LLM の高能率を維持しながら最小の攻撃成功率 (ASR) を達成するように設計されている。
LLAMA-2-7B-ChatおよびMistral-7B-Instruct-v0.2モデルによる実験結果から,DSPの堅牢性と適応性が確認された。
論文 参考訳(メタデータ) (2024-05-30T14:40:35Z) - Fine-Tuning, Quantization, and LLMs: Navigating Unintended Outcomes [0.0]
大規模言語モデル(LLM)は、チャットボットやオートタスク補完エージェントなど、さまざまな領域で広く採用されている。
これらのモデルは、ジェイルブレイク、プロンプトインジェクション、プライバシリーク攻撃などの安全性上の脆弱性の影響を受けやすい。
本研究では,これらの変更がLLMの安全性に与える影響について検討する。
論文 参考訳(メタデータ) (2024-04-05T20:31:45Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large Language Models [107.82336341926134]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - Baseline Defenses for Adversarial Attacks Against Aligned Language
Models [109.75753454188705]
最近の研究は、テキストのモデレーションが防御をバイパスするジェイルブレイクのプロンプトを生み出すことを示している。
検出(複雑度に基づく)、入力前処理(言い換えと再帰化)、対人訓練の3種類の防衛について検討する。
テキストに対する既存の離散化の弱点と比較的高いコストの最適化が組み合わさって、標準適応攻撃をより困難にしていることがわかった。
論文 参考訳(メタデータ) (2023-09-01T17:59:44Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。