論文の概要: DPP-Based Adversarial Prompt Searching for Lanugage Models
- arxiv url: http://arxiv.org/abs/2403.00292v1
- Date: Fri, 1 Mar 2024 05:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 18:06:07.981159
- Title: DPP-Based Adversarial Prompt Searching for Lanugage Models
- Title(参考訳): DPPに基づくラウンジモデルの逆数プロンプト探索
- Authors: Xu Zhang and Xiaojun Wan
- Abstract要約: Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
- 参考スコア(独自算出の注目度): 56.73828162194457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language models risk generating mindless and offensive content, which hinders
their safe deployment. Therefore, it is crucial to discover and modify
potential toxic outputs of pre-trained language models before deployment. In
this work, we elicit toxic content by automatically searching for a prompt that
directs pre-trained language models towards the generation of a specific target
output. The problem is challenging due to the discrete nature of textual data
and the considerable computational resources required for a single forward pass
of the language model. To combat these challenges, we introduce Auto-regressive
Selective Replacement Ascent (ASRA), a discrete optimization algorithm that
selects prompts based on both quality and similarity with determinantal point
process (DPP). Experimental results on six different pre-trained language
models demonstrate the efficacy of ASRA for eliciting toxic content.
Furthermore, our analysis reveals a strong correlation between the success rate
of ASRA attacks and the perplexity of target outputs, while indicating limited
association with the quantity of model parameters.
- Abstract(参考訳): 言語モデルは、マインドレスで攻撃的なコンテンツを生成するリスクがあり、安全なデプロイメントを妨げる。
したがって、事前訓練された言語モデルの潜在的有害な出力を発見し、修正することが重要である。
本研究では,事前学習した言語モデルから特定の目標出力を生成するプロンプトを自動検索することで有害コンテンツを抽出する。
この問題は、テキストデータの離散的な性質と、言語モデルの1つの前方通過に必要なかなりの計算資源のためである。
これらの課題に対処するために,DPP(Determinantal Point Process)と品質および類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムであるAuto-Regressive Selective Replacement Ascent(ASRA)を導入する。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
さらに,ASRA攻撃の成功率と目標出力の難易度との間には強い相関関係がみられ,モデルパラメータの量と限られた相関関係を示す。
関連論文リスト
- Optimizing Language Models for Human Preferences is a Causal Inference
Problem [46.75318356800048]
直接結果データセットからの人間の嗜好に対する言語モデル最適化について検討する。
まず,言語モデルの最適化を因果問題と見なして,モデルがテキストと結果の関係を正しく学習することを保証する。
我々はCPOを2倍の頑健なCPOで拡張し、従属目的の分散を低減し、バイアスに対する確実な強い保証を維持します。
論文 参考訳(メタデータ) (2024-02-22T21:36:07Z) - Selective Forgetting: Advancing Machine Unlearning Techniques and
Evaluation in Language Models [24.784439330058095]
本研究では,個人や機密データを不注意に保持するニューラルモデルに関する懸念について検討する。
言語モデル内で、正確かつ選択的に忘れることを実現するために、新しいアプローチが導入された。
S-EL(Sensitive Information extract Likelihood)とS-MA(Sensitive Information Memory Accuracy)の2つの革新的な評価指標が提案されている。
論文 参考訳(メタデータ) (2024-02-08T16:50:01Z) - A Generative Adversarial Attack for Multilingual Text Classifiers [10.993289209465129]
そこで本稿では,多言語パラフレーズモデルに逆方向の目的を付与する手法を提案する。
トレーニングの目的は、テキストの品質と言語の一貫性を保証するために、事前訓練されたモデルのセットを含む。
2つの多言語データセットと5つの言語に対する実験的な検証により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2024-01-16T10:14:27Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z) - NoiER: An Approach for Training more Reliable Fine-TunedDownstream Task
Models [54.184609286094044]
補助モデルと付加データなしで問題を解くための学習パラダイムとして,ノイズエントロピー正規化(NoiER)を提案する。
提案手法は,従来の微調整モデルと比較して平均55%改善した。
論文 参考訳(メタデータ) (2021-08-29T06:58:28Z) - Text Generation by Learning from Demonstrations [17.549815256968877]
テキスト生成への現在のアプローチは、主に自己回帰モデルと最大推定に依存する。
本稿では,重要な重み付けによって専門家によるデモンストレーションから学習する,最適化の容易なアルゴリズムGOLDを提案する。
自動評価と人的評価の両方で、GOLDでトレーニングされたモデルは、MLEとポリシー勾配によってトレーニングされたモデルよりも優れています。
論文 参考訳(メタデータ) (2020-09-16T17:58:37Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。