論文の概要: Curiosity-driven Red-teaming for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.19464v1
- Date: Thu, 29 Feb 2024 18:55:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:13:47.608963
- Title: Curiosity-driven Red-teaming for Large Language Models
- Title(参考訳): 大言語モデルのための好奇心駆動型レッドチーム
- Authors: Zhang-Wei Hong, Idan Shenfeld, Tsun-Hsuan Wang, Yung-Sung Chuang, Aldo
Pareja, James Glass, Akash Srivastava, Pulkit Agrawal
- Abstract要約: 大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めているが、誤ったまたは有害なコンテンツを生成するリスクがある。
ヒューマンテスタにのみ依存することは、高価で時間を要する。
好奇心駆動型レッド・チームリング (CRT) の手法は, 既存の方法と比較して, 有効性を維持したり, 向上させたりしながら, テストケースのカバレッジを向上する。
- 参考スコア(独自算出の注目度): 43.448044721642916
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) hold great potential for many natural language
applications but risk generating incorrect or toxic content. To probe when an
LLM generates unwanted content, the current paradigm is to recruit a
\textit{red team} of human testers to design input prompts (i.e., test cases)
that elicit undesirable responses from LLMs. However, relying solely on human
testers is expensive and time-consuming. Recent works automate red teaming by
training a separate red team LLM with reinforcement learning (RL) to generate
test cases that maximize the chance of eliciting undesirable responses from the
target LLM. However, current RL methods are only able to generate a small
number of effective test cases resulting in a low coverage of the span of
prompts that elicit undesirable responses from the target LLM. To overcome this
limitation, we draw a connection between the problem of increasing the coverage
of generated test cases and the well-studied approach of curiosity-driven
exploration that optimizes for novelty. Our method of curiosity-driven red
teaming (CRT) achieves greater coverage of test cases while mantaining or
increasing their effectiveness compared to existing methods. Our method, CRT
successfully provokes toxic responses from LLaMA2 model that has been heavily
fine-tuned using human preferences to avoid toxic outputs. Code is available at
\url{https://github.com/Improbable-AI/curiosity_redteam}
- Abstract(参考訳): 大規模言語モデル(LLM)は、多くの自然言語アプリケーションにとって大きな可能性を秘めている。
LLMが望ましくないコンテンツを生成するとき、現在のパラダイムは、LLMから望ましくない応答を引き出す入力プロンプト(すなわちテストケース)を設計するために、人間のテスタの \textit{red team} を採用することである。
しかし、人間のテスターだけに頼るのは高価で時間がかかる。
最近の研究は、強化学習(RL)を用いて別々のレッドチームLLMを訓練してレッドチームを自動化することで、ターゲットのLLMから望ましくない応答を誘発する確率を最大化するテストケースを生成する。
しかし、現在のRL法では、少数の有効なテストケースしか生成できないため、ターゲットのLLMから望ましくない応答を誘発するプロンプトのスパンのカバレッジが低い。
この制限を克服するために、生成したテストケースのカバレッジを増加させる問題と、新規性のために最適化された好奇心駆動探索のよく研究されたアプローチとを関連づける。
提案手法は,既存手法と比較して有効性を維持し,あるいは向上させながら,テストケースのカバレッジを高める。
CRT法はLLaMA2モデルから有毒な応答を誘発し,ヒトの嗜好を微調整して有害な出力を回避した。
コードは \url{https://github.com/improbable-ai/curiosity_redteam} で入手できる。
関連論文リスト
- CSRT: Evaluation and Analysis of LLMs using Code-Switching Red-Teaming Dataset [10.154013836043816]
Code-Switching Red-teaming (CSRT)は、大規模言語モデル(LLM)の多言語理解と安全性を同時にテストする、シンプルで効果的なレッドチーム技術である。
CSRTデータセットは、最大10言語を結合した315のコードスイッチングクエリからなり、望ましくない動作を広範囲に引き出す。
CSRTは、既存の英語の手法よりも46.7%のアタックを達成し、既存のマルチリンガル・リピート手法を著しく上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T06:08:18Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。
これにより、LDMがデータのみのソースからの命令を受け取り、作用するインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。
我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。
このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - CyberSecEval 2: A Wide-Ranging Cybersecurity Evaluation Suite for Large Language Models [6.931433424951554]
大規模言語モデル(LLM)は新たなセキュリティリスクを導入するが、これらのリスクを計測し、削減するための包括的な評価スイートはほとんどない。
LLMのセキュリティリスクと能力を定量化する新しいベンチマークであるBenchmarkNameを提案する。
我々は,GPT-4,Mistral,Meta Llama 370B-Instruct,Code Llamaを含む複数のSOTA (State-of-the-art) LLMを評価した。
論文 参考訳(メタデータ) (2024-04-19T20:11:12Z) - Gradient-Based Language Model Red Teaming [9.972783485792885]
Red Teamingは、ジェネレーティブ言語モデル(LM)の弱点を特定するための戦略である
レッド・チームリングは、モデルアライメントと評価の両方に役立ちますが、人間によって行われると、労働集約的でスケールが難しいです。
我々は、LMが安全でない応答を出力する可能性のある多様なプロンプトを自動生成する、GBRT(Gradient-Based Red Teaming)を提案する。
論文 参考訳(メタデータ) (2024-01-30T01:19:25Z) - LMRL Gym: Benchmarks for Multi-Turn Reinforcement Learning with Language
Models [56.25156596019168]
本稿では,LMRL-Gymベンチマークを用いて,大規模言語モデル(LLM)のマルチターンRLの評価を行う。
我々のベンチマークは8つの異なる言語タスクで構成されており、複数ラウンドの言語相互作用が必要であり、オープンエンド対話やテキストゲームにおける様々なタスクをカバーする。
論文 参考訳(メタデータ) (2023-11-30T03:59:31Z) - Learning from Red Teaming: Gender Bias Provocation and Mitigation in
Large Language Models [43.44112117935541]
大型言語モデル(LLM)は潜在的なバイアスを符号化し、相互作用中に人間を傷つける相違を保持する。
LLMの潜在的な性別バイアスを検出するテストケースを自動生成するファースト・オブ・イズ・キンド法を提案する。
特定されたバイアスに対処するため,本研究では,生成したテストケースを文脈内学習の実証として利用する緩和戦略を提案する。
論文 参考訳(メタデータ) (2023-10-17T08:56:04Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z) - Red Teaming Language Models with Language Models [8.237872606555383]
言語モデル(LM)は、予測が難しい方法でユーザを傷つける可能性があるため、デプロイできないことが多い。
以前の作業では、ヒューマンアノテータを使ってテストケースを手書きすることで、デプロイ前に有害な振る舞いを特定する。
本研究では、別のLMを用いてテストケース(「レッドチーム」)を生成することにより、標的のLMが有害な振る舞いをするケースを自動的に見つける。
論文 参考訳(メタデータ) (2022-02-07T15:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。