論文の概要: Red Teaming Language Models with Language Models
- arxiv url: http://arxiv.org/abs/2202.03286v1
- Date: Mon, 7 Feb 2022 15:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 13:46:35.744018
- Title: Red Teaming Language Models with Language Models
- Title(参考訳): 言語モデルを用いた赤いチーム言語モデル
- Authors: Ethan Perez, Saffron Huang, Francis Song, Trevor Cai, Roman Ring, John
Aslanides, Amelia Glaese, Nat McAleese, Geoffrey Irving
- Abstract要約: 言語モデル(LM)は、予測が難しい方法でユーザを傷つける可能性があるため、デプロイできないことが多い。
以前の作業では、ヒューマンアノテータを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。
本研究では、別のLMを用いてテストケース(「レッドチーム」)を生成することにより、標的のLMが有害な振る舞いをするケースを自動的に見つける。
- 参考スコア(独自算出の注目度): 8.237872606555383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) often cannot be deployed because of their potential to
harm users in hard-to-predict ways. Prior work identifies harmful behaviors
before deployment by using human annotators to hand-write test cases. However,
human annotation is expensive, limiting the number and diversity of test cases.
In this work, we automatically find cases where a target LM behaves in a
harmful way, by generating test cases ("red teaming") using another LM. We
evaluate the target LM's replies to generated test questions using a classifier
trained to detect offensive content, uncovering tens of thousands of offensive
replies in a 280B parameter LM chatbot. We explore several methods, from
zero-shot generation to reinforcement learning, for generating test cases with
varying levels of diversity and difficulty. Furthermore, we use prompt
engineering to control LM-generated test cases to uncover a variety of other
harms, automatically finding groups of people that the chatbot discusses in
offensive ways, personal and hospital phone numbers generated as the chatbot's
own contact info, leakage of private training data in generated text, and harms
that occur over the course of a conversation. Overall, LM-based red teaming is
one promising tool (among many needed) for finding and fixing diverse,
undesirable LM behaviors before impacting users.
- Abstract(参考訳): 言語モデル(lms)は、予測が難しい方法でユーザを傷つける可能性があるため、しばしばデプロイできない。
以前の作業では、人間のアノテーションを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。
しかしながら、人間のアノテーションは高価であり、テストケースの数と多様性を制限する。
この作業では、ターゲットlmが有害な方法で振る舞う場合を自動的に見つけて、別のlmを使ってテストケース(赤いチーム)を生成します。
280B のパラメータ LM チャットボットにおいて,攻撃内容を検出するために訓練された分類器を用いて,ターゲット LM の応答を評価した。
ゼロショット生成から強化学習まで,多様な多様性と難易度を持つテストケースを生成するためのいくつかの手法を探索する。
さらに,lmが生成するテストケースの制御,チャットボットが議論するグループの自動検出,チャットボット自身の連絡先情報として生成した個人と病院の電話番号,生成したテキストにおけるプライベートトレーニングデータの漏洩,会話の過程で発生する被害など,さまざまな有害性を明らかにするために,プロンプトエンジニアリングを用いる。
全体として、lmベースのred teamingは、ユーザに影響を与える前に多様で望ましくないlmの動作を見つけて修正するための有望なツールのひとつです。
関連論文リスト
- Automated Red Teaming with GOAT: the Generative Offensive Agent Tester [8.947465706080523]
Red Teamingは、安全トレーニング中に設定された規範やポリシー、ルールに違反したコンテンツを、大規模な言語モデルがいかに生成できるかを評価する。
文献における既存の自動化手法のほとんどは、人間がAIモデルと対話する傾向を示すものではない。
本稿では,非言語的会話をシミュレートする自動エージェントレッド・チーム・システムであるジェネレーティブ・オッサンティブ・エージェント・テスタ(GOAT)を紹介する。
論文 参考訳(メタデータ) (2024-10-02T14:47:05Z) - Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文 参考訳(メタデータ) (2024-06-24T16:31:11Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Curiosity-driven Red-teaming for Large Language Models [43.448044721642916]
大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。
ヒューマンテスタにのみ依存することは、高価で時間を要する。
好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
論文 参考訳(メタデータ) (2024-02-29T18:55:03Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - Eliciting Human Preferences with Language Models [56.68637202313052]
言語モデル(LM)は、ラベル付き例や自然言語のプロンプトを使用してターゲットタスクを実行するように指示することができる。
タスク仕様プロセスのガイドには*LM自身を使うことを提案します。
我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。
論文 参考訳(メタデータ) (2023-10-17T21:11:21Z) - Learning from Red Teaming: Gender Bias Provocation and Mitigation in
Large Language Models [43.44112117935541]
大型言語モデル(LLM)は潜在的なバイアスを符号化し、相互作用中に人間を傷つける相違を保持する。
LLMの潜在的な性別バイアスを検出するテストケースを自動生成するファースト・オブ・イズ・キンド法を提案する。
特定されたバイアスに対処するため,本研究では,生成したテストケースを文脈内学習の実証として利用する緩和戦略を提案する。
論文 参考訳(メタデータ) (2023-10-17T08:56:04Z) - No Offense Taken: Eliciting Offensiveness from Language Models [0.3683202928838613]
我々はPerezらによる言語モデル付きレッドチーム言語モデル(2022年)に焦点を当てている。
コントリビューションには、レッドチームによる自動テストケース生成のためのパイプラインの開発が含まれています。
我々は、広くデプロイされたLMから攻撃応答を引き出すのに役立つテストケースのコーパスを生成する。
論文 参考訳(メタデータ) (2023-10-02T04:17:35Z) - MAGE: Machine-generated Text Detection in the Wild [82.70561073277801]
大規模言語モデル(LLM)は人間レベルのテキスト生成を実現し、効果的なAI生成テキスト検出の必要性を強調している。
我々は、異なるLLMによって生成される多様な人文やテキストからテキストを収集することで、包括的なテストベッドを構築する。
問題にもかかわらず、トップパフォーマンス検出器は、新しいLCMによって生成された86.54%のドメイン外のテキストを識別することができ、アプリケーションシナリオの実現可能性を示している。
論文 参考訳(メタデータ) (2023-05-22T17:13:29Z) - Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models [58.990214815032495]
大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
論文 参考訳(メタデータ) (2022-06-11T12:52:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。