論文の概要: Explore, Establish, Exploit: Red Teaming Language Models from Scratch
- arxiv url: http://arxiv.org/abs/2306.09442v3
- Date: Wed, 11 Oct 2023 00:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 08:50:24.369386
- Title: Explore, Establish, Exploit: Red Teaming Language Models from Scratch
- Title(参考訳): Explore, Establish, Exploit: Scratchのレッドチーム言語モデル
- Authors: Stephen Casper, Jason Lin, Joe Kwon, Gatlen Culp, Dylan
Hadfield-Menell
- Abstract要約: 我々は、相手が失敗を分類する方法から始めない「ゼロから」レッドチームを考える。
我々は,この手法を用いて,偽文を抽出する入力のクラスを発見する。
- 参考スコア(独自算出の注目度): 7.949645304649025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying large language models (LMs) can pose hazards from harmful outputs
such as toxic or false text. Prior work has introduced automated tools that
elicit harmful outputs to identify these risks. While this is a valuable step
toward securing models, these approaches rely on a pre-existing way to
efficiently classify undesirable outputs. Using a pre-existing classifier does
not allow for red-teaming to be tailored to the target model. Furthermore, when
failures can be easily classified in advance, red-teaming has limited marginal
value because problems can be avoided by simply filtering training data and/or
model outputs. Here, we consider red-teaming "from scratch," in which the
adversary does not begin with a way to classify failures. Our framework
consists of three steps: 1) Exploring the model's range of behaviors in the
desired context; 2) Establishing a definition and measurement for undesired
behavior (e.g., a classifier trained to reflect human evaluations); and 3)
Exploiting the model's flaws using this measure to develop diverse adversarial
prompts. We use this approach to red-team GPT-3 to discover classes of inputs
that elicit false statements. In doing so, we construct the CommonClaim dataset
of 20,000 statements labeled by humans as common-knowledge-true, common
knowledge-false, or neither. We are making code and data available.
- Abstract(参考訳): 大きな言語モデル(lms)のデプロイは、有害テキストや偽テキストのような有害なアウトプットから危険をもたらす可能性がある。
以前の作業では、これらのリスクを特定するために有害なアウトプットを誘発する自動化ツールが導入された。
これはモデルを保護するための貴重なステップであるが、これらのアプローチは、望ましくない出力を効率的に分類する既存の方法に依存している。
既存の分類器を使用すると、red-teamingをターゲットモデルに合わせることはできない。
さらに、失敗を事前に分類し易い場合には、トレーニングデータや/またはモデル出力を簡易にフィルタリングすることで問題を回避することができるため、リピーティングの限界値が制限される。
ここでは、敵が障害を分類する方法から始めるのではなく、"スクラッチから"レッドチーム化を検討する。
私たちのフレームワークは3つのステップで構成されています。
1) 所望の文脈におけるモデルの行動範囲を探索すること。
2)望ましくない行動(例えば、人間の評価を反映するように訓練された分類器)の定義と測定を確立すること、
3) この尺度を用いてモデルの欠陥をエクスプロイトし, 多様な対応策を開発する。
このアプローチをred-team gpt-3に使用して、誤ったステートメントを誘発するインプットのクラスを見つけます。
そこで我々は,人間による2万文のCommonClaimデータセットを構築した。
コードとデータを利用可能にしています。
関連論文リスト
- Query-Based Adversarial Prompt Generation [67.238873588125]
我々は、アライメント言語モデルが有害な文字列を出力する原因となる敵の例を構築します。
GPT-3.5とOpenAIの安全分類器に対する攻撃を検証する。
論文 参考訳(メタデータ) (2024-02-19T18:01:36Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Navigating the OverKill in Large Language Models [84.62340510027042]
モデルがどのように処理し,クエリの安全性を判断するかを検討することで,過剰スキルの要因について検討する。
以上の結果から,モデル内にショートカットが存在することが明らかとなり,"キル"のような有害な単語が過剰に認識され,安全性が強調され,過度なスキルが増すことが示唆された。
我々は、この現象を緩和するために、トレーニングフリーでモデルに依存しないセルフコントラストデコーディング(Self-Contrastive Decoding、CD)を導入する。
論文 参考訳(メタデータ) (2024-01-31T07:26:47Z) - Anti-LM Decoding for Zero-shot In-context Machine Translation [59.26037416204157]
本研究は, 文脈内機械翻訳の弱点に対処するために, 減衰係数を付加したアンチランゲージモデルを提案する。
3つのモデルタイプとサイズ,3つの言語方向,およびグリージーデコーディングとビームサーチの両方に対して実験を行う。
論文 参考訳(メタデータ) (2023-11-14T17:09:43Z) - Language Model Unalignment: Parametric Red-Teaming to Expose Hidden
Harms and Biases [32.2246459413988]
Red-teamingは、モデルの安全行動をジェイルブレイクして、クエリの有害性を無視した有用なエージェントとして機能させることを目的としている。
我々は、安全研究、すなわち、Unalignmentを通してのレッドチームについて、新しい視点を提示する。
統一性はモデルパラメータを調整し、モデルの振舞いに深く根付いていないモデルガードレールを壊す。
論文 参考訳(メタデータ) (2023-10-22T13:55:46Z) - Probing LLMs for hate speech detection: strengths and vulnerabilities [8.626059038321724]
我々は、異なるプロンプト変動、入力情報を活用し、ゼロショット設定で大きな言語モデルを評価する。
GPT-3.5、text-davinci、Flan-T5の3つの大きな言語モデルと、HateXplain、暗黙の憎しみ、ToxicSpansという3つのデータセットを選択します。
パイプライン内のターゲット情報を含む平均すると,モデルの性能が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-10-19T16:11:02Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors,
and Lessons Learned [10.836210010868932]
3つのモデルサイズ(2.7B, 13B, 52Bパラメータ)と4つのモデルタイプにまたがるレッド・チームリングのスケーリング挙動について検討した。
私たちは38,961人のレッドチームによる攻撃のデータセットをリリースし、他者が分析し、そこから学びます。
論文 参考訳(メタデータ) (2022-08-23T23:37:14Z) - Capturing Failures of Large Language Models via Human Cognitive Biases [18.397404180932373]
OpenAIのCodex errsは、入力プロンプトのフレーム化、アンカーへの出力の調整、頻繁なトレーニング例を模倣する出力へのバイアスなどに基づいている。
我々の実験は、認知科学が現代の機械学習システムがどのように振る舞うかをよりよく理解するために有用な跳躍点になり得ることを示唆している。
論文 参考訳(メタデータ) (2022-02-24T18:58:52Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。