論文の概要: JAB: Joint Adversarial Prompting and Belief Augmentation
- arxiv url: http://arxiv.org/abs/2311.09473v1
- Date: Thu, 16 Nov 2023 00:35:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 17:00:46.079709
- Title: JAB: Joint Adversarial Prompting and Belief Augmentation
- Title(参考訳): JAB: 共同対人プロンプティングと信念の増大
- Authors: Ninareh Mehrabi, Palash Goyal, Anil Ramakrishna, Jwala Dhamala,
Shalini Ghosh, Richard Zemel, Kai-Wei Chang, Aram Galstyan, Rahul Gupta
- Abstract要約: 我々は,ブラックボックスターゲットモデルの強靭性を,敵対的プロンプトと信念の増大を通じて探索し,改善する共同枠組みを導入する。
このフレームワークは、自動的なレッド・チームリング手法を用いてターゲットモデルを探索し、信念強化器を用いて目標モデルの命令を生成し、敵のプローブに対するロバスト性を向上させる。
- 参考スコア(独自算出の注目度): 81.39548637776365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the recent surge of language models in different applications, attention
to safety and robustness of these models has gained significant importance.
Here we introduce a joint framework in which we simultaneously probe and
improve the robustness of a black-box target model via adversarial prompting
and belief augmentation using iterative feedback loops. This framework utilizes
an automated red teaming approach to probe the target model, along with a
belief augmenter to generate instructions for the target model to improve its
robustness to those adversarial probes. Importantly, the adversarial model and
the belief generator leverage the feedback from past interactions to improve
the effectiveness of the adversarial prompts and beliefs, respectively. In our
experiments, we demonstrate that such a framework can reduce toxic content
generation both in dynamic cases where an adversary directly interacts with a
target model and static cases where we use a static benchmark dataset to
evaluate our model.
- Abstract(参考訳): 近年、異なるアプリケーションにおける言語モデルの急増に伴い、これらのモデルの安全性と堅牢性への注意が重要になっている。
本稿では,繰り返しフィードバックループを用いた対角的プロンプトと信念強化によるブラックボックスターゲットモデルのロバスト性を同時に探索し,改善するジョイントフレームワークを提案する。
このフレームワークは、ターゲットモデルを調査するために自動レッドチームアプローチと、ターゲットモデルに対する命令を生成して、それらの敵プローブに対するロバスト性を改善するための信念拡張器を使用している。
重要なのは、敵モデルと信念生成者が過去の相互作用からのフィードバックを利用して、それぞれ敵のプロンプトと信念の有効性を向上させることである。
実験では、敵がターゲットモデルと直接対話する動的ケースと、静的なベンチマークデータセットを用いてモデルを評価する静的ケースの両方において、このようなフレームワークが有害なコンテンツ生成を減らすことを実証した。
関連論文リスト
- Transferable Adversarial Attacks on SAM and Its Downstream Models [87.23908485521439]
本稿では,セグメント・アプライス・モデル(SAM)から微調整した様々な下流モデルに対する敵攻撃の可能性について検討する。
未知のデータセットを微調整したモデルに対する敵攻撃の有効性を高めるために,ユニバーサルメタ初期化(UMI)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-26T15:04:04Z) - Adversarial Fine-tuning of Compressed Neural Networks for Joint Improvement of Robustness and Efficiency [3.3490724063380215]
アドリラルトレーニングは、より堅牢なモデルをもたらすことができる緩和戦略として提示されている。
本稿では,2つの異なるモデル圧縮手法(構造的重み打ち法と量子化法)が対向ロバスト性に及ぼす影響について検討する。
本研究では, 圧縮モデルの逆方向微調整により, 対向訓練モデルに匹敵する強靭性性能が得られることを示す。
論文 参考訳(メタデータ) (2024-03-14T14:34:25Z) - Sowing the Wind, Reaping the Whirlwind: The Impact of Editing Language Models [19.132597762214722]
大規模な言語モデル(LLM)が重要な研究領域として現れている。
本稿では,モデル編集による修正の複雑な結果について検討する。
この結果から, モデル編集は, トピック・リピートのためのコスト効率のよいツールであることが示唆された。
論文 参考訳(メタデータ) (2024-01-19T11:48:09Z) - FLIRT: Feedback Loop In-context Red Teaming [71.38594755628581]
我々は、与えられたモデルを評価し、その脆弱性を明らかにする自動レッドチーム化フレームワークを提案する。
私たちのフレームワークは、レッドチームモデルに対するフィードバックループでコンテキスト内学習を使用し、それらを安全でないコンテンツ生成にトリガーします。
論文 参考訳(メタデータ) (2023-08-08T14:03:08Z) - Introducing Foundation Models as Surrogate Models: Advancing Towards
More Practical Adversarial Attacks [15.882687207499373]
箱なしの敵攻撃は、AIシステムにとってより実用的で難しいものになりつつある。
本稿では,サロゲートモデルとして基礎モデルを導入することにより,逆攻撃を下流タスクとして再放送する。
論文 参考訳(メタデータ) (2023-07-13T08:10:48Z) - SafeAMC: Adversarial training for robust modulation recognition models [53.391095789289736]
通信システムには、Deep Neural Networks(DNN)モデルに依存する変調認識など、多くのタスクがある。
これらのモデルは、逆方向の摂動、すなわち、誤分類を引き起こすために作られた知覚不能な付加音に影響を受けやすいことが示されている。
本稿では,自動変調認識モデルのロバスト性を高めるために,逆方向の摂動を伴うモデルを微調整する逆方向トレーニングを提案する。
論文 参考訳(メタデータ) (2021-05-28T11:29:04Z) - Enhancing Dialogue Generation via Multi-Level Contrastive Learning [57.005432249952406]
質問に対する応答のきめ細かい品質をモデル化するマルチレベルコントラスト学習パラダイムを提案する。
Rank-aware (RC) ネットワークはマルチレベルコントラスト最適化の目的を構築するために設計されている。
本研究では,知識推論(KI)コンポーネントを構築し,学習中の参照からキーワードの知識を抽出し,そのような情報を活用して情報的単語の生成を促す。
論文 参考訳(メタデータ) (2020-09-19T02:41:04Z) - Boosting Black-Box Attack with Partially Transferred Conditional
Adversarial Distribution [83.02632136860976]
深層ニューラルネットワーク(DNN)に対するブラックボックス攻撃の研究
我々は, 代理バイアスに対して頑健な, 対向移動可能性の新たなメカニズムを開発する。
ベンチマークデータセットの実験と実世界のAPIに対する攻撃は、提案手法の優れた攻撃性能を示す。
論文 参考訳(メタデータ) (2020-06-15T16:45:27Z) - Evaluating Ensemble Robustness Against Adversarial Attacks [0.0]
ニューラルネットワークを騙す目的で生成されるわずかな摂動入力である逆例は、モデル間で転送されることが知られている。
この転送可能性の概念は、ブラックボックスの設定でモデルを攻撃する可能性につながるため、重大なセキュリティ上の懸念を引き起こす。
我々は、アンサンブルの構成モデルが効果的に協調して、アンサンブル自体を対象とする対角的例の空間を減らし、グラデーションに基づく尺度を導入する。
論文 参考訳(メタデータ) (2020-05-12T13:20:54Z) - Luring of transferable adversarial perturbations in the black-box
paradigm [0.0]
我々は、ブラックボックス転送攻撃に対するモデルの堅牢性を改善するための新しいアプローチを提案する。
除去可能な追加ニューラルネットワークが対象モデルに含まれており、テクスチャリング効果を誘導するように設計されている。
提案手法は,対象モデルの予測にのみアクセス可能であり,ラベル付きデータセットを必要としない。
論文 参考訳(メタデータ) (2020-04-10T06:48:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。