論文の概要: Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models
- arxiv url: http://arxiv.org/abs/2408.14866v1
- Date: Tue, 27 Aug 2024 08:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-28 14:33:22.601634
- Title: Advancing Adversarial Suffix Transfer Learning on Aligned Large Language Models
- Title(参考訳): 適応型大言語モデルを用いた対数接尾辞変換学習の促進
- Authors: Hongfu Liu, Yuxi Xie, Ye Wang, Michael Shieh,
- Abstract要約: 言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
- 参考スコア(独自算出の注目度): 21.96773736059112
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language Language Models (LLMs) face safety concerns due to potential misuse by malicious users. Recent red-teaming efforts have identified adversarial suffixes capable of jailbreaking LLMs using the gradient-based search algorithm Greedy Coordinate Gradient (GCG). However, GCG struggles with computational inefficiency, limiting further investigations regarding suffix transferability and scalability across models and data. In this work, we bridge the connection between search efficiency and suffix transferability. We propose a two-stage transfer learning framework, DeGCG, which decouples the search process into behavior-agnostic pre-searching and behavior-relevant post-searching. Specifically, we employ direct first target token optimization in pre-searching to facilitate the search process. We apply our approach to cross-model, cross-data, and self-transfer scenarios. Furthermore, we introduce an interleaved variant of our approach, i-DeGCG, which iteratively leverages self-transferability to accelerate the search process. Experiments on HarmBench demonstrate the efficiency of our approach across various models and domains. Notably, our i-DeGCG outperforms the baseline on Llama2-chat-7b with ASRs of $43.9$ ($+22.2$) and $39.0$ ($+19.5$) on valid and test sets, respectively. Further analysis on cross-model transfer indicates the pivotal role of first target token optimization in leveraging suffix transferability for efficient searching.
- Abstract(参考訳): 言語モデル(LLM)は、悪意のあるユーザによる誤用による安全性上の懸念に直面している。
近年のレッドチームの取り組みは、勾配に基づく探索アルゴリズムGreedy Coordinate Gradient (GCG) を用いて、LDMをジェイルブレイクできる敵サフィックスを特定している。
しかし、GCGは計算の非効率性に苦慮し、接尾辞の転送可能性やモデルやデータ間のスケーラビリティに関するさらなる調査を制限している。
本研究では,探索効率と接尾辞伝達性の関係を橋渡しする。
本稿では,2段階の移動学習フレームワークであるDeGCGを提案する。
具体的には、探索プロセスを容易にするために、事前探索において直接第一目標トークン最適化を用いる。
私たちは、クロスモデル、クロスデータ、そしてセルフトランスファーのシナリオにアプローチを適用します。
さらに,本手法のインターリーブ版であるi-DeGCGを導入し,自己伝達性を活用して探索プロセスを高速化する。
HarmBenchの実験は、様々なモデルとドメインにわたるアプローチの効率を実証している。
特に、我々のi-DeGCGはLlama2-chat-7bのベースラインを43.9$(+22.2$)と39.0$(+19.5$)で上回ります。
クロスモデル転送のさらなる解析は、効率的な探索のために接尾辞転送可能性を活用する上で、第1目標トークン最適化の重要な役割を示している。
関連論文リスト
- Sequencing Matters: A Generate-Retrieve-Generate Model for Building
Conversational Agents [9.191944519634111]
Georgetown InfoSense GroupはTREC iKAT 2023の課題を解決するために活動している。
提案手法は, 各カット数, 総合成功率において, nDCG において高い性能を示した。
我々のソリューションは、初期回答にLarge Language Models (LLMs) を用いること、BM25による回答基盤、ロジスティック回帰による通過品質フィルタリング、LLMによる回答生成である。
論文 参考訳(メタデータ) (2023-11-16T02:37:58Z) - Single-Stage Visual Relationship Learning using Conditional Queries [60.90880759475021]
TraCQは、マルチタスク学習問題とエンティティペアの分布を回避する、シーングラフ生成の新しい定式化である。
我々は,DETRをベースとしたエンコーダ-デコーダ条件付きクエリを用いて,エンティティラベル空間を大幅に削減する。
実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回っていることがわかった。
論文 参考訳(メタデータ) (2023-06-09T06:02:01Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - Logit Margin Matters: Improving Transferable Targeted Adversarial Attack
by Logit Calibration [85.71545080119026]
クロスエントロピー(CE)損失関数は、伝達可能な標的対向例を学習するには不十分である。
本稿では,ロジットを温度係数と適応マージンでダウンスケールすることで,ロジットのキャリブレーションを簡易かつ効果的に行う2つの手法を提案する。
ImageNetデータセットを用いて実験を行い,提案手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-03-07T06:42:52Z) - GFlowCausal: Generative Flow Networks for Causal Discovery [27.51595081346858]
本稿では,GFlowCausalと呼ばれる観測データからDAG(Directed Acyclic Graph)を学習するための新しい手法を提案する。
GFlowCausalは、事前定義された報酬に比例した確率を持つシーケンシャルアクションによって、ハイリワードDAGを生成するための最良のポリシーを学ぶことを目的としている。
合成データセットと実データセットの両方について広範な実験を行い、提案手法が優れていることを示すとともに、大規模環境での良好な性能を示す。
論文 参考訳(メタデータ) (2022-10-15T04:07:39Z) - Adaptive Fine-Grained Predicates Learning for Scene Graph Generation [122.4588401267544]
一般的なシーングラフ生成(SGG)モデルは、頭部の述語を予測する傾向があり、再バランス戦略は尾のカテゴリを好む。
本稿では,SGGの難解な述語を識別することを目的とした適応的微粒述語学習(FGPL-A)を提案する。
提案したモデル非依存戦略は,VG-SGGおよびGQA-SGGデータセットのベンチマークモデルの性能を最大175%,Mean Recall@100では76%向上させ,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2022-07-11T03:37:57Z) - Training Generative Adversarial Networks with Adaptive Composite
Gradient [2.471982349512685]
本稿では,二線形ゲームにおいて線形収束する適応型コンポジットグラディエント法を提案する。
ACGは、各ステップの勾配を計算する必要がないため、半漸進的なアルゴリズムである。
結果は、ACGが以前のアルゴリズムと競合していることを示している。
論文 参考訳(メタデータ) (2021-11-10T03:13:53Z) - TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain
Gait Recognition [77.77786072373942]
本稿では、教師なしクロスドメイン歩行認識のための領域ギャップを橋渡しするTransferable Neighborhood Discovery (TraND) フレームワークを提案する。
我々は、潜在空間におけるラベルなしサンプルの自信ある近傍を自動的に発見するために、エンドツーエンドのトレーニング可能なアプローチを設計する。
提案手法は,CASIA-BとOU-LPの2つの公開データセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-02-09T03:07:07Z) - Diverse Knowledge Distillation for End-to-End Person Search [81.4926655119318]
人物検索は、画像ギャラリーから特定の人物をローカライズし識別することを目的としている。
最近の手法は2つのグループ、すなわち2段階とエンドツーエンドのアプローチに分類できる。
ボトルネックを解消するために、多様な知識蒸留を備えたシンプルで強力なエンドツーエンドネットワークを提案します。
論文 参考訳(メタデータ) (2020-12-21T09:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。