Fugu-MT 論文翻訳(概要): Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses

論文の概要: Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses

arxiv url: http://arxiv.org/abs/2407.02551v2
Date: Wed, 30 Oct 2024 17:16:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:34.365619
Title: Breach By A Thousand Leaks: Unsafe Information Leakage in `Safe' AI Responses
Title（参考訳）: AIの「安全な」応答に安全でない情報漏洩が原因
Authors: David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan, Nicolas Papernot,
Abstract要約: モデル出力の不可避な情報漏洩に基づく新しい安全性評価フレームワークを提案する。我々は,情報検閲の安全性を確保するために,防衛機構が情報検閲を確実にする必要があることを示す。
参考スコア（独自算出の注目度）: 42.136793654338106
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Vulnerability of Frontier language models to misuse and jailbreaks has prompted the development of safety measures like filters and alignment training in an effort to ensure safety through robustness to adversarially crafted prompts. We assert that robustness is fundamentally insufficient for ensuring safety goals, and current defenses and evaluation methods fail to account for risks of dual-intent queries and their composition for malicious goals. To quantify these risks, we introduce a new safety evaluation framework based on impermissible information leakage of model outputs and demonstrate how our proposed question-decomposition attack can extract dangerous knowledge from a censored LLM more effectively than traditional jailbreaking. Underlying our proposed evaluation method is a novel information-theoretic threat model of inferential adversaries, distinguished from security adversaries, such as jailbreaks, in that success is measured by inferring impermissible knowledge from victim outputs as opposed to forcing explicitly impermissible outputs from the victim. Through our information-theoretic framework, we show that to ensure safety against inferential adversaries, defense mechanisms must ensure information censorship, bounding the leakage of impermissible information. However, we prove that such defenses inevitably incur a safety-utility trade-off.
Abstract（参考訳）: フロンティア語モデルの誤用や脱獄に対する脆弱性は、敵に製作されたプロンプトに対する堅牢性を通じて安全性を確保するために、フィルターやアライメントトレーニングのような安全対策の開発を促している。安全目標の確保にはロバスト性は基本的に不十分であり、現在の防衛・評価手法では、二重インテリジェントクエリのリスクと、悪質な目標に対するそれらの構成を考慮できないと我々は主張する。これらのリスクを定量化するために、モデル出力の不可解な情報漏洩に基づく新しい安全性評価フレームワークを導入し、提案した質問分解攻撃が、従来のジェイルブレイクよりも効果的に検閲されたLLMから危険な知識を抽出する方法を実証する。提案手法は, 脱獄などのセキュリティ敵と区別される, 新たな情報理論的脅威モデルであり, 被害者からの明確な不寛容なアウトプットを強制するのではなく, 被害者のアウトプットから不寛容な知識を推測することで, 成功度を計測するものである。情報理論の枠組みにより, 敵の安全を確保するためには, 防御機構が情報検閲を確実にし, 情報漏洩を抑える必要があることを示す。しかし、このような防衛策が必然的に安全効用トレードオフを引き起こすことを証明している。

関連論文リスト

Tit-for-Tat: Safeguarding Large Vision-Language Models Against Jailbreak Attacks via Adversarial Defense [90.71884758066042]
大きな視覚言語モデル(LVLM)は、視覚入力による悪意のある攻撃に対する感受性という、ユニークな脆弱性を導入している。本稿では,脆弱性発生源からアクティブ防衛機構へ視覚空間を変換するための新しい手法であるESIIIを提案する。
論文参考訳（メタデータ） (2025-03-14T17:39:45Z)
Vulnerability Mitigation for Safety-Aligned Language Models via Debiasing [12.986006070964772]
安全性アライメントは、現実世界のAIアプリケーションにとって重要な研究トピックである。本研究はまず,モデルの有用性を犠牲にすることなく,このような脆弱性を除去することの難しさを明らかにした。本手法は,安全性を維持しつつモデルの有用性を高め,トレードオフを改善できる。
論文参考訳（メタデータ） (2025-02-04T09:31:54Z)
On the Robustness of Adversarial Training Against Uncertainty Attacks [9.180552487186485]
学習問題において、手元のタスクに固有のノイズは、ある程度の不確実性なく推論する可能性を妨げている。本研究は、敵の例、すなわち、誤分類を引き起こす注意深く摂動されたサンプルに対する防御が、より安全で信頼性の高い不確実性推定を保証していることを実証的および理論的に明らかにする。我々は,CIFAR-10およびImageNetデータセット上で,公開ベンチマークのRobustBenchから,複数の逆ロバストモデルを評価する。
論文参考訳（メタデータ） (2024-10-29T11:12:44Z)
LLM Safeguard is a Double-Edged Sword: Exploiting False Positives for Denial-of-Service Attacks [7.013820690538764]
本研究は,セーフガード手法のエンファルス陰性を利用した攻撃について検討する。悪意のある攻撃者は、セキュリティ保護の偽陽性を悪用する可能性もあり、ユーザーに影響を与えるDoS(DoS)が否定された。
論文参考訳（メタデータ） (2024-10-03T19:07:53Z)
Evaluating Defences against Unsafe Feedback in RLHF [26.872318173182414]
本稿では、強化学習による安全でないフィードバックからの学習について考察する。安全に配慮したLLMは有害なテキストを生成することで、安全でない行動空間を容易に探索できることがわかった。この脆弱性から保護するために、我々は、有害な微調整の防御を「単純」と「明示」の両方に適応させる。
論文参考訳（メタデータ） (2024-09-19T17:10:34Z)
Nothing in Excess: Mitigating the Exaggerated Safety for LLMs via Safety-Conscious Activation Steering [56.92068213969036]
重大言語モデル(LLM)が悪意のある命令から脅威を守るためには、安全性の調整が不可欠である。近年の研究では、過大な安全性の問題により、安全性に配慮したLCMは、良質な問い合わせを拒否する傾向にあることが明らかになっている。過大な安全性の懸念を和らげるために,SCANS法を提案する。
論文参考訳（メタデータ） (2024-08-21T10:01:34Z)
Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。 DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文参考訳（メタデータ） (2024-07-12T09:36:33Z)
Purple-teaming LLMs with Adversarial Defender Training [57.535241000787416]
本稿では,PAD(Adversarial Defender Training)を用いたPurple-teaming LLMを提案する。 PADは、赤チーム(アタック)技術と青チーム(セーフティトレーニング)技術を新たに取り入れることで、LSMを保護するために設計されたパイプラインである。 PADは、効果的な攻撃と堅牢な安全ガードレールの確立の両方において、既存のベースラインを著しく上回っている。
論文参考訳（メタデータ） (2024-07-01T23:25:30Z)
The Art of Defending: A Systematic Evaluation and Analysis of LLM Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文参考訳（メタデータ） (2023-12-30T17:37:06Z)
Robust Safety Classifier for Large Language Models: Adversarial Prompt Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文参考訳（メタデータ） (2023-10-31T22:22:10Z)
Kick Bad Guys Out! Conditionally Activated Anomaly Detection in Federated Learning with Zero-Knowledge Proof Verification [22.078088272837068]
フェデレーテッド・ラーニング(FL)システムは敵の攻撃を受けやすい。現在の防衛方式は現実世界のFLシステムでは実用的ではないことが多い。本稿では,現実のFLシステムを対象とした新しい異常検出手法を提案する。
論文参考訳（メタデータ） (2023-10-06T07:09:05Z)
Foveate, Attribute, and Rationalize: Towards Physically Safe and Trustworthy AI [76.28956947107372]
包括的不安全テキストは、日常的なシナリオから生じる可能性のある特定の関心領域であり、有害なテキストを検出するのが困難である。安全の文脈において、信頼に値する合理的な生成のために外部知識を活用する新しいフレームワークであるFARMを提案する。実験の結果,FARMはSafeTextデータセットの最先端結果を得ることができ,安全性の分類精度が5.9%向上したことがわかった。
論文参考訳（メタデータ） (2022-12-19T17:51:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。