論文の概要: DPP-Based Adversarial Prompt Searching for Lanugage Models
- arxiv url: http://arxiv.org/abs/2403.00292v1
- Date: Fri, 1 Mar 2024 05:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:06:07.981159
- Title: DPP-Based Adversarial Prompt Searching for Lanugage Models
- Title(参考訳): DPPに基づくラウンジモデルの逆数プロンプト探索
- Authors: Xu Zhang and Xiaojun Wan
- Abstract要約: Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
- 参考スコア(独自算出の注目度): 56.73828162194457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models risk generating mindless and offensive content, which hinders
their safe deployment. Therefore, it is crucial to discover and modify
potential toxic outputs of pre-trained language models before deployment. In
this work, we elicit toxic content by automatically searching for a prompt that
directs pre-trained language models towards the generation of a specific target
output. The problem is challenging due to the discrete nature of textual data
and the considerable computational resources required for a single forward pass
of the language model. To combat these challenges, we introduce Auto-regressive
Selective Replacement Ascent (ASRA), a discrete optimization algorithm that
selects prompts based on both quality and similarity with determinantal point
process (DPP). Experimental results on six different pre-trained language
models demonstrate the efficacy of ASRA for eliciting toxic content.
Furthermore, our analysis reveals a strong correlation between the success rate
of ASRA attacks and the perplexity of target outputs, while indicating limited
association with the quantity of model parameters.
- Abstract(参考訳): 言語モデルは、マインドレスで攻撃的なコンテンツを生成するリスクがあり、安全なデプロイメントを妨げる。
したがって、事前訓練された言語モデルの潜在的有害な出力を発見し、修正することが重要である。
本研究では,事前学習した言語モデルから特定の目標出力を生成するプロンプトを自動検索することで有害コンテンツを抽出する。
この問題は、テキストデータの離散的な性質と、言語モデルの1つの前方通過に必要なかなりの計算資源のためである。
これらの課題に対処するために,DPP(Determinantal Point Process)と品質および類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムであるAuto-Regressive Selective Replacement Ascent(ASRA)を導入する。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
さらに,ASRA攻撃の成功率と目標出力の難易度との間には強い相関関係がみられ,モデルパラメータの量と限られた相関関係を示す。
関連論文リスト
- A linguistic analysis of undesirable outcomes in the era of generative AI [4.841442157674423]
本稿では,LLama2のチャットバージョンを基盤として,生成されたコンテンツの言語的側面に着目した総合シミュレーションフレームワークを提案する。
以上の結果から,このモデルでは世代ごとの語彙的リッチコンテンツの生成が減少し,多様性が低下することが示唆された。
オートファジーは、最初のモデルをより創造的で疑わしい、混乱したものに変換し、不正確な答えをもたらす可能性がある。
論文 参考訳(メタデータ) (2024-10-16T08:02:48Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Enhancing adversarial robustness in Natural Language Inference using explanations [41.46494686136601]
自然言語推論(NLI)の未探索課題に注目点を当てた。
我々は、広範囲な実験を通じて、モデルに依存しない防衛戦略として、自然言語説明の使用を検証した。
本研究では,広範に使用されている言語生成指標と人間の知覚との相関について検討し,それらが堅牢なNLIモデルへのプロキシとして機能するようにした。
論文 参考訳(メタデータ) (2024-09-11T17:09:49Z) - Selective Forgetting: Advancing Machine Unlearning Techniques and
Evaluation in Language Models [24.784439330058095]
本研究では,個人や機密データを不注意に保持するニューラルモデルに関する懸念について検討する。
言語モデル内で、正確かつ選択的に忘れることを実現するために、新しいアプローチが導入された。
S-EL(Sensitive Information extract Likelihood)とS-MA(Sensitive Information Memory Accuracy)の2つの革新的な評価指標が提案されている。
論文 参考訳(メタデータ) (2024-02-08T16:50:01Z) - A Generative Adversarial Attack for Multilingual Text Classifiers [10.993289209465129]
そこで本稿では,多言語パラフレーズモデルに逆方向の目的を付与する手法を提案する。
トレーニングの目的は、テキストの品質と言語の一貫性を保証するために、事前訓練されたモデルのセットを含む。
2つの多言語データセットと5つの言語に対する実験的な検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-01-16T10:14:27Z) - AUTOLYCUS: Exploiting Explainable AI (XAI) for Model Extraction Attacks against Interpretable Models [1.8752655643513647]
XAIツールは、モデル抽出攻撃の脆弱性を増大させる可能性がある。
そこで本研究では,ブラックボックス設定下での解釈可能なモデルに対して,新たなリトレーニング(学習)に基づくモデル抽出攻撃フレームワークを提案する。
AUTOLYCUSは非常に効果的で、最先端の攻撃に比べてクエリが大幅に少ないことが示される。
論文 参考訳(メタデータ) (2023-02-04T13:23:39Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。