論文の概要: Jailbreaking as a Reward Misspecification Problem
- arxiv url: http://arxiv.org/abs/2406.14393v2
- Date: Fri, 12 Jul 2024 08:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 04:18:12.353962
- Title: Jailbreaking as a Reward Misspecification Problem
- Title(参考訳): Reward Misspecification 問題としての脱獄
- Authors: Zhihui Xie, Jiahui Gao, Lei Li, Zhenguo Li, Qi Liu, Lingpeng Kong,
- Abstract要約: 本稿では,この脆弱性をアライメントプロセス中に不特定性に対処する新たな視点を提案する。
本稿では,報酬の誤特定の程度を定量化するための指標ReGapを紹介し,有害なバックドアプロンプトを検出する上での有効性とロバスト性を示す。
ReMissは、様々な目標に整列したLDMに対して対向的なプロンプトを生成する自動レッドチームリングシステムである。
- 参考スコア(独自算出の注目度): 80.52431374743998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の普及は、その安全性と信頼性、特に敵の攻撃に対する脆弱性に対する懸念を引き起こしている。
本稿では,この脆弱性をアライメント過程における不特定性に寄与する新たな視点を提案する。
本稿では,報酬の誤特定の程度を定量化するための指標ReGapを紹介し,有害なバックドアプロンプトを検出する上での有効性とロバスト性を示す。
これらの知見に基づいて、様々な目標に整列したLDMに対して対向的なプロンプトを生成する自動レッドチーム作成システムであるReMissを提案する。
ReMissは、生成されたプロンプトの可読性を保ちながら、AdvBenchベンチマークにおける最先端の攻撃成功率を達成する。
詳細な分析は、提案された報酬の不特定目標によってもたらされる独特な利点を以前の方法と比較して強調する。
関連論文リスト
- Raccoon: Prompt Extraction Benchmark of LLM-Integrated Applications [8.51254190797079]
本稿では,抽出攻撃に対するモデルの感受性を包括的に評価するRacoonベンチマークを提案する。
本手法は,無防備シナリオと防御シナリオの両方でモデルを評価する。
本研究は,防衛の欠如を契機に,盗難を助長するための普遍的感受性を強調し,保護時に顕著なレジリエンスを示すOpenAIモデルを示した。
論文 参考訳(メタデータ) (2024-06-10T18:57:22Z) - A Novel Evaluation Framework for Assessing Resilience Against Prompt Injection Attacks in Large Language Models [0.0]
本研究では,アプリケーションのレジリエンスを定量化する新しいフレームワークを提案する。
このフレームワークには、代表性、解釈可能性、堅牢性を保証するために設計された革新的な技術が含まれている。
その結果, 新しいモデルであるLlama2はChatGLMよりも高いレジリエンスを示した。
論文 参考訳(メタデータ) (2024-01-02T02:06:48Z) - Unveiling Vulnerabilities of Contrastive Recommender Systems to Poisoning Attacks [48.911832772464145]
コントラスト学習(CL)は近年,レコメンダシステムの領域で注目されている。
本稿では,CLをベースとしたレコメンデータシステムの脆弱性を明らかにする。
論文 参考訳(メタデータ) (2023-11-30T04:25:28Z) - Simultaneously Optimizing Perturbations and Positions for Black-box
Adversarial Patch Attacks [13.19708582519833]
敵パッチは、ディープニューラルネットワークの堅牢性に重大なリスクをもたらす、現実世界の敵攻撃の重要な形態である。
従来の方法は、貼付位置を固定しながら摂動値を最適化するか、パッチの内容を修正しながら位置を操作することにより、敵パッチを生成する。
敵パッチの位置と摂動を同時に最適化し,ブラックボックス設定において高い攻撃成功率が得られる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-12-26T02:48:37Z) - Effective Targeted Attacks for Adversarial Self-Supervised Learning [58.14233572578723]
ラベル情報を持たないモデルにおいて堅牢性を達成する手段として、教師なしの敵訓練(AT)が強調されている。
本稿では,敵のSSLフレームワークを効果的に生成するために,敵の攻撃を標的とした新たな正のマイニングを提案する。
提案手法は,非コントラスト型SSLフレームワークに適用した場合のロバストネスの大幅な向上と,コントラスト型SSLフレームワークによるロバストネスの向上を示す。
論文 参考訳(メタデータ) (2022-10-19T11:43:39Z) - Indicators of Attack Failure: Debugging and Improving Optimization of
Adversarial Examples [29.385242714424624]
機械学習モデルの頑健さを敵の例に評価することは難しい問題である。
我々は、勾配に基づく攻撃の最適化において共通の障害を明らかにするための定量的指標のセットを定義する。
実験により,現在の対向ロバスト性評価を可視化し,デバッグし,改善するために,提案した障害指標が有効であることを示す。
論文 参考訳(メタデータ) (2021-06-18T06:57:58Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z) - Transferable, Controllable, and Inconspicuous Adversarial Attacks on
Person Re-identification With Deep Mis-Ranking [83.48804199140758]
システム出力のランキングを乱す学習とミスランクの定式化を提案する。
また,新たなマルチステージネットワークアーキテクチャを開発することで,バックボックス攻撃を行う。
そこで本手法では, 異なるマルチショットサンプリングにより, 悪意のある画素数を制御することができる。
論文 参考訳(メタデータ) (2020-04-08T18:48:29Z) - Temporal Sparse Adversarial Attack on Sequence-based Gait Recognition [56.844587127848854]
このような攻撃に対して,最先端の歩行認識モデルが脆弱であることを示す。
生成した対向ネットワークに基づくアーキテクチャを用いて、対向的な高品質な歩行シルエットやビデオフレームを意味的に生成する。
実験結果から, フレームの1分の1しか攻撃されない場合, 対象モデルの精度は劇的に低下することがわかった。
論文 参考訳(メタデータ) (2020-02-22T10:08:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。