Fugu-MT 論文翻訳(概要): Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

論文の概要: Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs

arxiv url: http://arxiv.org/abs/2501.16534v1
Date: Mon, 27 Jan 2025 22:13:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-29 22:09:10.98409
Title: Targeting Alignment: Extracting Safety Classifiers of Aligned LLMs
Title（参考訳）: 目標アライメント:アライメントLLMの安全分類器の抽出
Authors: Jean-Charles Noirot Ferrand, Yohan Beugin, Eric Pauley, Ryan Sheatsley, Patrick McDaniel,
Abstract要約: 大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。 LLMアライメントのロバスト性を評価する手法を提案し,評価する。
参考スコア（独自算出の注目度）: 4.492376241514766
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Alignment in large language models (LLMs) is used to enforce guidelines such as safety. Yet, alignment fails in the face of jailbreak attacks that modify inputs to induce unsafe outputs. In this paper, we present and evaluate a method to assess the robustness of LLM alignment. We observe that alignment embeds a safety classifier in the target model that is responsible for deciding between refusal and compliance. We seek to extract an approximation of this classifier, called a surrogate classifier, from the LLM. We develop an algorithm for identifying candidate classifiers from subsets of the LLM model. We evaluate the degree to which the candidate classifiers approximate the model's embedded classifier in benign (F1 score) and adversarial (using surrogates in a white-box attack) settings. Our evaluation shows that the best candidates achieve accurate agreement (an F1 score above 80%) using as little as 20% of the model architecture. Further, we find attacks mounted on the surrogate models can be transferred with high accuracy. For example, a surrogate using only 50% of the Llama 2 model achieved an attack success rate (ASR) of 70%, a substantial improvement over attacking the LLM directly, where we only observed a 22% ASR. These results show that extracting surrogate classifiers is a viable (and highly effective) means for modeling (and therein addressing) the vulnerability of aligned models to jailbreaking attacks.
Abstract（参考訳）: 大規模言語モデル(LLM)のアライメントは、安全性などのガイドラインを強制するために使用される。しかし、アライメントは、入力を変更して安全でない出力を誘導するjailbreak攻撃に直面して失敗する。本稿では,LLMアライメントのロバスト性を評価する手法を提案し,評価する。我々は、アライメントが、拒絶とコンプライアンスを判断する責任を負うターゲットモデルに安全分類器を埋め込むことを観察する。代用分類器と呼ばれるこの分類器の近似を LLM から抽出する。 LLMモデルのサブセットから候補分類器を同定するアルゴリズムを開発した。候補分類器がモデルの組込み分類器を、良性(F1スコア)と逆性(ホワイトボックス攻撃におけるサロゲートを用いて)で近似する度合いを評価する。評価の結果,モデルアーキテクチャの20%程度を用いて,最適候補が正確な合意(F1スコアが80%以上)を達成できることが示唆された。さらに,サロゲートモデルに装着した攻撃を高精度に転送できることがわかった。例えば、Llama 2モデルの50%しか使用していないサロゲートは、攻撃成功率(ASR)が70%に達した。これらの結果から, 代理分類器の抽出は, ジェイルブレーキング攻撃に対する整列モデルの脆弱性をモデル化(そしてそれに対応する)するための有効な手段であることが示唆された。

関連論文リスト

AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文参考訳（メタデータ） (2025-04-29T17:36:05Z)
Secret Breach Detection in Source Code with Large Language Models [2.5484785866796833]
APIキーやトークン,資格情報などの機密情報をソースコードに漏洩することは,依然として永続的なセキュリティ上の脅威である。この研究は、大規模な言語モデル(LLM)を用いたソースコードの秘密検出を強化し、高いリコールを維持しながら偽陽性を減らすことを目的としている。
論文参考訳（メタデータ） (2025-04-26T03:33:14Z)
Semantic-Aware Contrastive Fine-Tuning: Boosting Multimodal Malware Classification with Discriminative Embeddings [2.1874189959020427]
大規模言語モデル(LLM)は、家族分類を支援するマルウェア記述を生成する可能性を提供する。硬質負試料のターゲット選択によりLCM埋め込みを改良するコントラスト微調整法(CFT)を提案する。提案手法は, 高い相似性陰性度を組み合わせ, 識別力と中層性陰性度を高め, 埋め込み多様性を高める。
論文参考訳（メタデータ） (2025-04-25T02:41:45Z)
REINFORCE Adversarial Attacks on Large Language Models: An Adaptive, Distributional, and Semantic Objective [57.57786477441956]
応答の個体群に対する適応的・意味的最適化問題を提案する。我々の目標は、Llama3の攻撃成功率(ASR)を2倍にし、サーキットブレーカー防御でASRを2%から50%に向上させることである。
論文参考訳（メタデータ） (2025-02-24T15:34:48Z)
Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。本稿では,新しいNLPを用いたインジェクション検出手法を提案する。階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文参考訳（メタデータ） (2024-10-28T15:47:03Z)
Fine-tuned Large Language Models (LLMs): Improved Prompt Injection Attacks Detection [6.269725911814401]
大きな言語モデル(LLM)は、幅広い言語ベースのタスクに対処する能力が大きく進歩しているため、人気ツールになりつつある。しかし、LSMのアプリケーションはインジェクション攻撃に対して非常に脆弱であり、致命的な問題を引き起こす。このプロジェクトでは,インジェクションのインジェクション攻撃に関連するセキュリティ脆弱性について検討する。
論文参考訳（メタデータ） (2024-10-28T00:36:21Z)
A Realistic Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。私たちの脅威モデルは、パープレキシティの制約を組み合わせることで、ジェイルブレイクが自然のテキストからどれだけ逸脱するかを測定します。我々は、この新しい現実的な脅威モデルに人気のある攻撃を適用する。
論文参考訳（メタデータ） (2024-10-21T17:27:01Z)
Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文参考訳（メタデータ） (2024-07-16T06:38:49Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文参考訳（メタデータ） (2023-11-12T17:18:21Z)
Practical Membership Inference Attacks against Fine-tuned Large Language Models via Self-prompt Calibration [32.15773300068426]
メンバーシップ推論攻撃は、対象のデータレコードがモデルトレーニングに使用されたかどうかを推測することを目的としている。自己校正確率変動(SPV-MIA)に基づくメンバーシップ推論攻撃を提案する。
論文参考訳（メタデータ） (2023-11-10T13:55:05Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。