Fugu-MT 論文翻訳(概要): Adversarial Suffixes May Be Features Too!

論文の概要: Adversarial Suffixes May Be Features Too!

arxiv url: http://arxiv.org/abs/2410.00451v1
Date: Sat, 5 Oct 2024 17:14:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 05:36:46.212187
Title: Adversarial Suffixes May Be Features Too!
Title（参考訳）: 敵のサフィックスも機能するかもしれない!
Authors: Wei Zhao, Zhe Li, Yige Li, Jun Sun,
Abstract要約: ジェイルブレイク攻撃によって生じる敵の接尾辞には有意義な特徴がある可能性が示唆された。これは、トレーニングデータ内の良質な特徴を支配することによって引き起こされる致命的なリスクを強調します。
参考スコア（独自算出の注目度）: 10.463762448166714
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite significant ongoing efforts in safety alignment, large language models (LLMs) such as GPT-4 and LLaMA 3 remain vulnerable to jailbreak attacks that can induce harmful behaviors, including those triggered by adversarial suffixes. Building on prior research, we hypothesize that these adversarial suffixes are not mere bugs but may represent features that can dominate the LLM's behavior. To evaluate this hypothesis, we conduct several experiments. First, we demonstrate that benign features can be effectively made to function as adversarial suffixes, i.e., we develop a feature extraction method to extract sample-agnostic features from benign dataset in the form of suffixes and show that these suffixes may effectively compromise safety alignment. Second, we show that adversarial suffixes generated from jailbreak attacks may contain meaningful features, i.e., appending the same suffix to different prompts results in responses exhibiting specific characteristics. Third, we show that such benign-yet-safety-compromising features can be easily introduced through fine-tuning using only benign datasets, i.e., even in the absence of harmful content. This highlights the critical risk posed by dominating benign features in the training data and calls for further research to reinforce LLM safety alignment. Our code and data is available at \url{https://github.com/anonymous}.
Abstract（参考訳）: GPT-4 や LLaMA 3 のような大規模言語モデル(LLM)は、安全確保の取り組みが進行中であるにもかかわらず、敵の接尾辞によって引き起こされるような有害な行動を引き起こす可能性のあるジェイルブレイク攻撃に対して脆弱なままである。先行研究に基づいて,これらの逆行性接尾辞は単なるバグではなく,LCMの行動に支配的な特徴を表わす可能性があると仮定した。この仮説を評価するために、我々はいくつかの実験を行った。まず,良性特徴を逆接接尾辞として効果的に機能させること,すなわち,良性データセットからサンプル非依存の特徴を接尾辞の形で抽出する特徴抽出法を開発し,それらの接尾辞が安全アライメントを効果的に損なうことを示した。第2に,ジェイルブレイク攻撃によって生じる敵の接尾辞には意味のある特徴,すなわち,異なるプロンプトに同じ接尾辞を付加することにより,特定の特徴を示す応答が生じる可能性があることを示す。第三に、有害なコンテンツがない場合でも、良性データセットのみを用いて微調整することで、このような良性-安全-妥協機能を簡単に導入できることが示される。このことは、トレーニングデータの良質な特徴を支配下に置くことによって引き起こされる重大なリスクを浮き彫りにし、LSMの安全性の整合性を強化するためのさらなる研究を求める。私たちのコードとデータは \url{https://github.com/anonymous} で利用可能です。

関連論文リスト

TRACEALIGN -- Tracing the Drift: Attributing Alignment Failures to Training-Time Belief Sources in LLMs [7.125400292079228]
大きな言語モデル(LLM)は、人間の値に合わせるように微調整され、しばしばアライメントドリフトを示す。以前の作業ではアライメント障害が特徴的だったが、これらの障害の根底にあるトレーニングタイムの信念源についてはほとんど知られていない。 TraceAlignは、モデルのトレーニングコーパスの根本原因に安全でない完了をトレースするための統一されたフレームワークである。
論文参考訳（メタデータ） (2025-08-04T05:03:35Z)
InfoFlood: Jailbreaking Large Language Models with Information Overload [16.626185161464164]
過度の言語的複雑さが組込み安全性メカニズムを阻害する新たな脆弱性を同定する。我々は、悪意のあるクエリを複雑な情報過剰なクエリに変換するジェイルブレイク攻撃であるInfoFloodを提案する。広く使用されている4つのLLM-GPT-4o, GPT-3.5-turbo, Gemini 2.0, LLaMA 3.1に対するInfoFloodの有効性を実証的に検証した。
論文参考訳（メタデータ） (2025-06-13T23:03:11Z)
Wolf Hidden in Sheep's Conversations: Toward Harmless Data-Based Backdoor Attacks for Jailbreaking Large Language Models [69.11679786018206]
Supervised Fine-tuning (SFT) は、大きな言語モデルと人間の意図を協調させ、ラベル付きタスク固有データでトレーニングする。近年の研究では、悪意のある攻撃者が、有害な質問応答ペアにトリガーを埋め込むことで、これらのモデルにバックドアを注入できることが示されている。脱獄性LLMに対する新しいクリーンデータバックドアアタックを提案する。
論文参考訳（メタデータ） (2025-05-23T08:13:59Z)
xJailbreak: Representation Space Guided Reinforcement Learning for Interpretable LLM Jailbreaking [32.89084809038529]
ブラックボックス・ジェイルブレイク(Black-box jailbreak)は、大規模な言語モデルの安全メカニズムをバイパスする攻撃である。強化学習(RL)を利用した新しいブラックボックスジェイルブレイク手法を提案する。我々は,より厳密で総合的なジェイルブレイク成功評価を提供するために,キーワード,意図マッチング,回答バリデーションを取り入れた総合的ジェイルブレイク評価フレームワークを導入する。
論文参考訳（メタデータ） (2025-01-28T06:07:58Z)
Can You Trust Your Metric? Automatic Concatenation-Based Tests for Metric Validity [9.355471292024061]
GPTをベースとした有害度検出指標は、決定フリッピング現象を示す。 GPT-4oのような高度な計量でさえ、入力順序に非常に敏感である。
論文参考訳（メタデータ） (2024-08-22T09:57:57Z)
Probing the Safety Response Boundary of Large Language Models via Unsafe Decoding Path Generation [44.09578786678573]
大きな言語モデル(LLM)は暗黙のトラブルメーカーである。 LLMは有害なデータ収集や隠蔽攻撃に使用できる。私たちはこのデコード戦略をJVD(Jailbreak Value Decoding)と名付けます。
論文参考訳（メタデータ） (2024-08-20T09:11:21Z)
Alignment-Enhanced Decoding:Defending via Token-Level Adaptive Refining of Probability Distributions [14.881201844063616]
本稿では,アライメント・エンハンスメント・デコーディング(Alignment-Enhanced Decoding, AED)を提案する。 5つのモデルと4つの一般的なジェイルブレイク実験を行い、その結果、我々のアプローチの有効性を検証した。
論文参考訳（メタデータ） (2024-08-14T16:51:21Z)
Safe Training with Sensitive In-domain Data: Leveraging Data Fragmentation To Mitigate Linkage Attacks [2.8186733524862158]
現在のテキスト生成モデルは、機密情報を含む可能性がある実際のデータを使って訓練される。本稿では,断片化されたデータをランダムにグループ化されたドメイン固有の短いフレーズの形で見る,より安全な代替手法を提案する。
論文参考訳（メタデータ） (2024-04-30T12:09:55Z)
Defending Large Language Models against Jailbreak Attacks via Semantic Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文参考訳（メタデータ） (2024-02-25T20:36:03Z)
DrAttack: Prompt Decomposition and Reconstruction Makes Powerful LLM Jailbreakers [74.7446827091938]
我々はjailbreak textbfAttack (DrAttack) のための自動プロンプト textbfDecomposition と textbfReconstruction フレームワークを導入する。 DrAttack には3つの重要な要素が含まれている: (a) プロンプトをサブプロンプトに分解する; (b) セマンティックに類似しているが無害な再組み立てデモで暗黙的にこれらのサブプロンプトを再構築する; (c) サブプロンプトのシンノニム検索する; サブプロンプトのシノニムを見つけることを目的としたサブプロンプトのシノニムを見つけること。
論文参考訳（メタデータ） (2024-02-25T17:43:29Z)
Query-Based Adversarial Prompt Generation [72.06860443442429]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。 GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文参考訳（メタデータ） (2024-02-19T18:01:36Z)
Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning Attack [7.653580388741887]
ユーザがアップロードした有害なデータのいくつかは、微調整を簡単に騙してアライメントが壊れたモデルを生成することができる。本稿では,ユーザが微調整を行う際のセキュリティリスクを軽減するために,摂動を考慮したアライメント手法であるVaccineを提案する。
論文参考訳（メタデータ） (2024-02-02T02:56:50Z)
Weak-to-Strong Jailbreaking on Large Language Models [96.50953637783581]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Token-Level Adversarial Prompt Detection Based on Perplexity Measures and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-11-20T03:17:21Z)
Certifying LLM Safety against Adversarial Prompting [75.19953634352258]
大規模言語モデル(LLM)は、入力プロンプトに悪意のあるトークンを追加する敵攻撃に対して脆弱である。我々は,認証された安全保証とともに,敵のプロンプトを防御する最初の枠組みである消去・チェックを導入する。
論文参考訳（メタデータ） (2023-09-06T04:37:20Z)
On the Exploitability of Instruction Tuning [103.8077787502381]
そこで本研究では,モデルの動作を変えるための命令チューニングを,相手がどのように活用できるかを検討する。自動データ中毒パイプラインである textitAutoPoison を提案する。結果から、AutoPoisonは、少数のデータだけを中毒することで、敵がモデルの振る舞いを変えることを可能にする。
論文参考訳（メタデータ） (2023-06-28T17:54:04Z)
Can contrastive learning avoid shortcut solutions? [88.249082564465]
暗黙的特徴修正(IFM)は、より広い種類の予測的特徴を捉えるために、対照的なモデルを導くために、正と負のサンプルを変更する方法である。 IFMは特徴抑制を低減し、その結果、視覚および医用画像タスクのパフォーマンスが向上する。
論文参考訳（メタデータ） (2021-06-21T16:22:43Z)
Be Careful about Poisoned Word Embeddings: Exploring the Vulnerability of the Embedding Layers in NLP Models [27.100909068228813]
最近の研究では、バックドア攻撃と呼ばれる自然言語処理(NLP)モデルに対するセキュリティの脅威が明らかになった。本稿では,1つの単語埋め込みベクトルを変更することで,データフリーな方法でモデルをハックできることを見出した。感情分析および文対分類タスクの実験結果から,本手法はより効率的でステルス性が高いことが示された。
論文参考訳（メタデータ） (2021-03-29T12:19:45Z)
Adversarial Semantic Collisions [129.55896108684433]
意味的衝突:意味論的に無関係だが、NLPモデルにより類似と判断されるテキストについて検討する。我々は,意味的衝突を生成するための勾配に基づくアプローチを開発した。パープレキシティに基づくフィルタリングを避けるために,意味的衝突を生成する方法を示す。
論文参考訳（メタデータ） (2020-11-09T20:42:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。