論文の概要: Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors,
and Lessons Learned
- arxiv url: http://arxiv.org/abs/2209.07858v1
- Date: Tue, 23 Aug 2022 23:37:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:58:12.271498
- Title: Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors,
and Lessons Learned
- Title(参考訳): ハームを減らすための赤いチーム言語モデル:メソッド、スケーリング行動、学んだ教訓
- Authors: Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao
Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal
Ndousse, Andy Jones, Sam Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn
Drain, Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield Dodds, Tom
Henighan, Danny Hernandez, Tristan Hume, Josh Jacobson, Scott Johnston,
Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei,
Tom Brown, Nicholas Joseph, Sam McCandlish, Chris Olah, Jared Kaplan, Jack
Clark
- Abstract要約: 3つのモデルサイズ(2.7B, 13B, 52Bパラメータ)と4つのモデルタイプにまたがるレッド・チームリングのスケーリング挙動について検討した。
私たちは38,961人のレッドチームによる攻撃のデータセットをリリースし、他者が分析し、そこから学びます。
- 参考スコア(独自算出の注目度): 10.836210010868932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We describe our early efforts to red team language models in order to
simultaneously discover, measure, and attempt to reduce their potentially
harmful outputs. We make three main contributions. First, we investigate
scaling behaviors for red teaming across 3 model sizes (2.7B, 13B, and 52B
parameters) and 4 model types: a plain language model (LM); an LM prompted to
be helpful, honest, and harmless; an LM with rejection sampling; and a model
trained to be helpful and harmless using reinforcement learning from human
feedback (RLHF). We find that the RLHF models are increasingly difficult to red
team as they scale, and we find a flat trend with scale for the other model
types. Second, we release our dataset of 38,961 red team attacks for others to
analyze and learn from. We provide our own analysis of the data and find a
variety of harmful outputs, which range from offensive language to more subtly
harmful non-violent unethical outputs. Third, we exhaustively describe our
instructions, processes, statistical methodologies, and uncertainty about red
teaming. We hope that this transparency accelerates our ability to work
together as a community in order to develop shared norms, practices, and
technical standards for how to red team language models.
- Abstract(参考訳): 我々は、潜在的に有害なアウトプットを同時に発見し、測定し、そして減らすために、チーム言語モデルを設計する初期の取り組みについて説明する。
主な貢献は3つです。
まず,3つのモデルサイズ (2.7B, 13B, 52Bパラメータ) と4つのモデルタイプ (プレーン言語モデル (LM) , LM は有益で正直で無害であるように促された, LM は拒絶サンプリングを伴う, モデルは人間からのフィードバックからの強化学習 (RLHF) を用いて有益で無害であるように訓練された。
rlhfモデルは、スケールするにつれて、赤チームではますます難しくなっていますし、他のモデルタイプでは、フラットな傾向が見られます。
次に、分析とそこから学ぶために38,961のレッドチームアタックのデータセットをリリースします。
我々は、データの解析を行い、攻撃的言語から非暴力的非倫理的なアウトプットまで、様々な有害なアウトプットを見つけ出す。
第3に,レッドチームに関する指示,プロセス,統計的方法論,不確実性について,徹底的に説明します。
この透明性がコミュニティとして協力して、red team language modelの方法に関する規範やプラクティス、技術的標準を共有する能力を促進できることを願っています。
関連論文リスト
- Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
大規模言語モデル(LLM)の事前トレーニングは伝統的に、Webスケールデータセットからランダムにサンプリングされたデータブロックの自己回帰言語モデリングに依存している。
我々は、空間的反復のような人間の学習技術からインスピレーションを得て、LLMのランダムなデータサンプリングが、データを忘れがちな高いトレーニングコストと低品質モデルをもたらすという仮説を立てる。
ウェブスケール情報を長期記憶に効果的にコミットするために,LFR(Learn, Focus, and Review)ペタゴギーを提案する。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - Towards Red Teaming in Multimodal and Multilingual Translation [7.440772334845366]
本稿では,機械翻訳のための人間によるレッド・チーム化に関する最初の研究について述べる。
これは翻訳モデルの性能を理解し改善するための重要なステップである。
我々は、学習した教訓を報告し、翻訳モデルとレッドチームドリルの両方に推奨する。
論文 参考訳(メタデータ) (2024-01-29T15:49:40Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - ROBBIE: Robust Bias Evaluation of Large Generative Language Models [27.864027322486375]
異なるプロンプトベースのデータセットを使用して、複数のテキストドメインと人口統計軸にわたる社会的バイアスを測定することができる。
我々は,12の人口動態軸と5のジェネレーションLLMの家系の6つの異なるプロンプトベースのバイアスと毒性の指標を比較した。
3つのバイアス/毒性の緩和技術が、我々の一連の測定においていかにうまく機能するかを包括的に研究する。
論文 参考訳(メタデータ) (2023-11-29T23:03:04Z) - Fine-tuning Language Models for Factuality [96.5203774943198]
大規模な事前訓練型言語モデル(LLM)は、しばしば伝統的な検索エンジンの代替として、広く使われるようになった。
しかし、言語モデルは説得力のあるが事実的に不正確な主張をしがちである(しばしば「幻覚」と呼ばれる)。
本研究では,人間のラベル付けなしに,より現実的な言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-11-14T18:59:15Z) - Explore, Establish, Exploit: Red Teaming Language Models from Scratch [7.949645304649025]
我々は、相手が失敗を分類する方法から始めない「ゼロから」レッドチームを考える。
我々は,この手法を用いて,偽文を抽出する入力のクラスを発見する。
論文 参考訳(メタデータ) (2023-06-15T18:49:50Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Beat the AI: Investigating Adversarial Human Annotation for Reading
Comprehension [27.538957000237176]
人間は、モデルが正しい答えに失敗するように、逆さまに質問を作成する。
アノテーションループでは,より強力なモデルで36,000のサンプルを収集する。
その結果,非対向的なサンプルの学習は,非対向的なデータセットに強い一般化をもたらすことがわかった。
より強力なモデルは、より弱いループモデルで収集されたデータセットから学習できることが分かっています。
論文 参考訳(メタデータ) (2020-02-02T00:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。