論文の概要: SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming
- arxiv url: http://arxiv.org/abs/2408.11851v1
- Date: Wed, 14 Aug 2024 08:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 13:51:32.183164
- Title: SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming
- Title(参考訳): SAGE-RT:安全評価とレッドチームのための合成アライメントデータ生成
- Authors: Anurakt Kumar, Divyanshu Kumar, Jatan Loya, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi,
- Abstract要約: 我々は合成アライメントとリピートデータを生成する新しいパイプラインであるSAGEを紹介する。
SAGEは詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。
Sagejailbreakによって生成されたリピートデータは,32のサブカテゴリ中27以上,279のリーフカテゴリ中58以上において,最先端のLDMを突破する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Synthetic Alignment data Generation for Safety Evaluation and Red Teaming (SAGE-RT or SAGE) a novel pipeline for generating synthetic alignment and red-teaming data. Existing methods fall short in creating nuanced and diverse datasets, providing necessary control over the data generation and validation processes, or require large amount of manually generated seed data. SAGE addresses these limitations by using a detailed taxonomy to produce safety-alignment and red-teaming data across a wide range of topics. We generated 51,000 diverse and in-depth prompt-response pairs, encompassing over 1,500 topics of harmfulness and covering variations of the most frequent types of jailbreaking prompts faced by large language models (LLMs). We show that the red-teaming data generated through SAGE jailbreaks state-of-the-art LLMs in more than 27 out of 32 sub-categories, and in more than 58 out of 279 leaf-categories (sub-sub categories). The attack success rate for GPT-4o, GPT-3.5-turbo is 100% over the sub-categories of harmfulness. Our approach avoids the pitfalls of synthetic safety-training data generation such as mode collapse and lack of nuance in the generation pipeline by ensuring a detailed coverage of harmful topics using iterative expansion of the topics and conditioning the outputs on the generated raw-text. This method can be used to generate red-teaming and alignment data for LLM Safety completely synthetically to make LLMs safer or for red-teaming the models over a diverse range of topics.
- Abstract(参考訳): SAGE-RT (SAGE-RT or SAGE) は, 合成アライメントとリピートデータを生成するための新しいパイプラインである。
既存のメソッドは、ニュアンスで多様なデータセットの作成に不足し、データ生成と検証プロセスの必要なコントロールを提供するか、あるいは大量の手動で生成されたシードデータを必要とする。
SAGEはこれらの制限に対処し、詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。
有害性のトピックを1,500以上含み,大規模言語モデル(LLM)が直面する最も頻繁なタイプのジェイルブレイクプロンプトのバリエーションを網羅した,多種多様かつ詳細なプロンプト応答ペア51,000を作成した。
SAGEjailbreakによって生成されたリピートデータは,32のサブカテゴリのうち27以上,279のリーフカテゴリ(サブカテゴリ)のうち58以上において,最先端のLDMを突破する。
GPT-4o, GPT-3.5-turboの攻撃成功率は, 有害性のサブカテゴリに対して100%であった。
提案手法は,モデム崩壊やニュアンス欠如などの合成安全訓練データ生成の落とし穴を回避し,トピックの反復的拡張による有害トピックの詳細なカバレッジを確保し,生成した生テキストに出力を条件付ける。
この方法は、LLMセーフティのためのレッドチームデータとアライメントデータを生成するために使用することができ、LLMをより安全なものにしたり、様々なトピックでモデルのレッドチーム化に利用することができる。
関連論文リスト
- Technical Report: Generating the WEB-IDS23 Dataset [1.1101390076342181]
いくつかの広く使われているデータセットは、十分にきめ細かいラベルを含まない。
モジュラートラフィックジェネレータは 様々な良質で悪意のあるトラフィックをシミュレートできます
データセットは、82のフローレベルの特徴と21のきめ細かいラベルを持つ1200万以上のサンプルをキャプチャする。
論文 参考訳(メタデータ) (2025-02-06T09:33:02Z) - Aegis2.0: A Diverse AI Safety Dataset and Risks Taxonomy for Alignment of LLM Guardrails [4.697160328460634]
大規模言語モデル(LLM)と生成AIが普及している。
LLM関連の安全リスクの完全なスペクトルに対処する、高品質で人間による注釈付きデータセットの欠如は明らかです。
安全リスクを分類するための包括的かつ適応可能な分類法を提案する。
論文 参考訳(メタデータ) (2025-01-15T18:37:08Z) - A Flexible Large Language Models Guardrail Development Methodology Applied to Off-Topic Prompt Detection [0.0]
大規模言語モデルは、ユーザーがこれらのモデルに意図した範囲を超えてタスクを実行するよう促すような、オフトピー的な誤用をしがちである。
現行のガードレールは、高い偽陽性率、限られた適応性、およびプレプロダクションでは利用できない実世界のデータを必要とする非現実性に悩まされている。
本稿では,これらの課題に対処するフレキシブルでデータフリーなガードレール開発手法を提案する。
論文 参考訳(メタデータ) (2024-11-20T00:31:23Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [63.603861880022954]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - Integrating Planning into Single-Turn Long-Form Text Generation [66.08871753377055]
長文コンテンツを生成するための計画案を提案する。
私たちの主な新規性は、複数のプロンプトや計画のラウンドを必要としない単一の補助的なタスクにあります。
実験では,LLMを補助タスクで微調整し,高品質な文書を生成する,異なる領域からの2つのデータセットを実証した。
論文 参考訳(メタデータ) (2024-10-08T17:02:40Z) - LLMEmb: Large Language Model Can Be a Good Embedding Generator for Sequential Recommendation [57.49045064294086]
大きな言語モデル(LLM)は、その人気とは無関係に、アイテム間の意味的関係をキャプチャする能力を持つ。
LLMEmb(LLMEmb)は、LCMを利用してアイテム埋め込みを生成し、逐次レコメンダシステム(SRS)の性能を向上させる手法である。
論文 参考訳(メタデータ) (2024-09-30T03:59:06Z) - h4rm3l: A Dynamic Benchmark of Composable Jailbreak Attacks for LLM Safety Assessment [48.5611060845958]
我々は,静的なデータセットや攻撃や被害を克服するために,構成可能なジェイルブレイク攻撃の新たなベンチマークを提案する。
我々は、h4rm3lを使用して、6つの最先端(SOTA)オープンソースおよびプロプライエタリなLLMをターゲットにした2656の新たなジェイルブレイク攻撃のデータセットを生成する。
合成攻撃のいくつかは、以前報告した攻撃よりも効果的であり、SOTAクローズド言語モデルでは、アタック成功率は90%以上である。
論文 参考訳(メタデータ) (2024-08-09T01:45:39Z) - PKU-SafeRLHF: Towards Multi-Level Safety Alignment for LLMs with Human Preference [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文 参考訳(メタデータ) (2024-06-20T18:37:36Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。