論文の概要: Explore, Establish, Exploit: Red Teaming Language Models from Scratch
- arxiv url: http://arxiv.org/abs/2306.09442v2
- Date: Wed, 21 Jun 2023 20:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 16:52:47.069712
- Title: Explore, Establish, Exploit: Red Teaming Language Models from Scratch
- Title(参考訳): Explore, Establish, Exploit: Scratchのレッドチーム言語モデル
- Authors: Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan
Hadfield-Menell
- Abstract要約: 大型言語モデル(LLM)は、有害な音声や不正直な音声などの有害な出力から危険をもたらす可能性がある。
従来の作業では、これらのリスクを特定し軽減するために有害なアウトプットを引き出すツールが導入されていた。
この作業は、レッドチームにおける中心的な課題である、モデルが提示できる振る舞いのコンテキスト的理解の開発を省略する。
- 参考スコア(独自算出の注目度): 4.702325864333419
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying Large language models (LLMs) can pose hazards from harmful outputs
such as toxic or dishonest speech. Prior work has introduced tools that elicit
harmful outputs in order to identify and mitigate these risks. While this is a
valuable step toward securing language models, these approaches typically rely
on a pre-existing classifier for undesired outputs. This limits their
application to situations where the type of harmful behavior is known with
precision beforehand. However, this skips a central challenge of red teaming:
developing a contextual understanding of the behaviors that a model can
exhibit. Furthermore, when such a classifier already exists, red teaming has
limited marginal value because the classifier could simply be used to filter
training data or model outputs. In this work, we consider red teaming under the
assumption that the adversary is working from a high-level, abstract
specification of undesired behavior. The red team is expected to refine/extend
this specification and identify methods to elicit this behavior from the model.
Our red teaming framework consists of three steps: 1) Exploring the model's
behavior in the desired context; 2) Establishing a measurement of undesired
behavior (e.g., a classifier trained to reflect human evaluations); and 3)
Exploiting the model's flaws using this measure and an established red teaming
methodology. We apply this approach to red team GPT-2 and GPT-3 models to
systematically discover classes of prompts that elicit toxic and dishonest
statements. In doing so, we also construct and release the CommonClaim dataset
of 20,000 statements that have been labeled by human subjects as
common-knowledge-true, common-knowledge-false, or neither. Code is available at
https://github.com/thestephencasper/explore_establish_exploit_llms. CommonClaim
is available at https://github.com/Algorithmic-Alignment-Lab/CommonClaim.
- Abstract(参考訳): 大規模言語モデル(llm)のデプロイは、有害な音声や不正な音声などの有害なアウトプットから危険をもたらす可能性がある。
以前の作業では、これらのリスクを特定し軽減するために有害なアウトプットを引き出すツールが導入されていた。
これは言語モデルを保護するための貴重なステップであるが、これらのアプローチは通常、望ましくない出力に対して既存の分類器に依存している。
これにより、有害な行動の種類が事前に正確に知られている状況に制限される。
しかし、これはred teamingの中心的な課題をスキップする:モデルが示すことのできる振る舞いのコンテキスト理解を開発する。
さらに、そのような分類器がすでに存在する場合、レッド・チーム化は訓練データやモデル出力のフィルタリングに単純に使用できるため、限界値に制限がある。
この研究では、敵が望ましくない行動の高レベルで抽象的な仕様から動いているという仮定の下でレッドチームを考える。
redチームは、この仕様を洗練/拡張し、モデルからこの振る舞いを引き出すメソッドを特定することが期待されている。
当社のred teamingフレームワークは3つのステップで構成されています。
1) 所望の文脈でモデルの振る舞いを探索すること。
2 望ましくない行動の測定(例えば、人間の評価を反映するように訓練された分類器)の確立及び
3) この尺度と確立されたレッドチーム編成手法を用いて,モデルの欠陥を悪用する。
本手法をレッドチーム GPT-2 および GPT-3 モデルに適用し,毒性および不正直な記述を誘発するプロンプトのクラスを系統的に発見する。
その際、人間の被験者がcommon-knowledge-true、common-knowledge-falseとラベル付けした2万文のcommonclaimデータセットを構築して公開します。
コードはhttps://github.com/thestephencasper/explore_establish_exploit_llmsで入手できる。
CommonClaimはhttps://github.com/Algorithmic-Alignment-Lab/CommonClaimで入手できる。
関連論文リスト
- Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Anti-LM Decoding for Zero-shot In-context Machine Translation [59.26037416204157]
本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を付加したアンチランゲージモデルを提案する。
3つのモデルタイプとサイズ,3つの言語方向,およびグリージーデコーディングとビームサーチの両方に対して実験を行う。
論文 参考訳(メタデータ) (2023-11-14T17:09:43Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors,
and Lessons Learned [10.836210010868932]
3つのモデルサイズ(2.7B, 13B, 52Bパラメータ)と4つのモデルタイプにまたがるレッド・チームリングのスケーリング挙動について検討した。
私たちは38,961人のレッドチームによる攻撃のデータセットをリリースし、他者が分析し、そこから学びます。
論文 参考訳(メタデータ) (2022-08-23T23:37:14Z) - Capturing Failures of Large Language Models via Human Cognitive Biases [18.397404180932373]
OpenAIのCodex errsは、入力プロンプトのフレーム化、アンカーへの出力の調整、頻繁なトレーニング例を模倣する出力へのバイアスなどに基づいている。
我々の実験は、認知科学が現代の機械学習システムがどのように振る舞うかをよりよく理解するために有用な跳躍点になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-02-24T18:58:52Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。