論文の概要: SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming
- arxiv url: http://arxiv.org/abs/2408.11851v1
- Date: Wed, 14 Aug 2024 08:38:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 13:51:32.183164
- Title: SAGE-RT: Synthetic Alignment data Generation for Safety Evaluation and Red Teaming
- Title(参考訳): SAGE-RT:安全評価とレッドチームのための合成アライメントデータ生成
- Authors: Anurakt Kumar, Divyanshu Kumar, Jatan Loya, Nitin Aravind Birur, Tanay Baswa, Sahil Agarwal, Prashanth Harshangi,
- Abstract要約: 我々は合成アライメントとリピートデータを生成する新しいパイプラインであるSAGEを紹介する。
SAGEは詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。
Sagejailbreakによって生成されたリピートデータは,32のサブカテゴリ中27以上,279のリーフカテゴリ中58以上において,最先端のLDMを突破する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce Synthetic Alignment data Generation for Safety Evaluation and Red Teaming (SAGE-RT or SAGE) a novel pipeline for generating synthetic alignment and red-teaming data. Existing methods fall short in creating nuanced and diverse datasets, providing necessary control over the data generation and validation processes, or require large amount of manually generated seed data. SAGE addresses these limitations by using a detailed taxonomy to produce safety-alignment and red-teaming data across a wide range of topics. We generated 51,000 diverse and in-depth prompt-response pairs, encompassing over 1,500 topics of harmfulness and covering variations of the most frequent types of jailbreaking prompts faced by large language models (LLMs). We show that the red-teaming data generated through SAGE jailbreaks state-of-the-art LLMs in more than 27 out of 32 sub-categories, and in more than 58 out of 279 leaf-categories (sub-sub categories). The attack success rate for GPT-4o, GPT-3.5-turbo is 100% over the sub-categories of harmfulness. Our approach avoids the pitfalls of synthetic safety-training data generation such as mode collapse and lack of nuance in the generation pipeline by ensuring a detailed coverage of harmful topics using iterative expansion of the topics and conditioning the outputs on the generated raw-text. This method can be used to generate red-teaming and alignment data for LLM Safety completely synthetically to make LLMs safer or for red-teaming the models over a diverse range of topics.
- Abstract(参考訳): SAGE-RT (SAGE-RT or SAGE) は, 合成アライメントとリピートデータを生成するための新しいパイプラインである。
既存のメソッドは、ニュアンスで多様なデータセットの作成に不足し、データ生成と検証プロセスの必要なコントロールを提供するか、あるいは大量の手動で生成されたシードデータを必要とする。
SAGEはこれらの制限に対処し、詳細な分類を使用して、幅広いトピックにわたる安全アライメントと再チームのデータを生成する。
有害性のトピックを1,500以上含み,大規模言語モデル(LLM)が直面する最も頻繁なタイプのジェイルブレイクプロンプトのバリエーションを網羅した,多種多様かつ詳細なプロンプト応答ペア51,000を作成した。
SAGEjailbreakによって生成されたリピートデータは,32のサブカテゴリのうち27以上,279のリーフカテゴリ(サブカテゴリ)のうち58以上において,最先端のLDMを突破する。
GPT-4o, GPT-3.5-turboの攻撃成功率は, 有害性のサブカテゴリに対して100%であった。
提案手法は,モデム崩壊やニュアンス欠如などの合成安全訓練データ生成の落とし穴を回避し,トピックの反復的拡張による有害トピックの詳細なカバレッジを確保し,生成した生テキストに出力を条件付ける。
この方法は、LLMセーフティのためのレッドチームデータとアライメントデータを生成するために使用することができ、LLMをより安全なものにしたり、様々なトピックでモデルのレッドチーム化に利用することができる。
関連論文リスト
- PKU-SafeRLHF: A Safety Alignment Preference Dataset for Llama Family Models [9.883296844539839]
PKU-SafeRLHFデータセットは、大規模言語モデル(LLM)における安全性アライメントの研究を促進するために設計された。
全体として、44.6kの精巧なプロンプトと265kの質問応答ペアに、安全メタラベルを19の有害カテゴリーと3つの重度レベルを付与する。
論文 参考訳(メタデータ) (2024-06-20T18:37:36Z) - Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - Do Neutral Prompts Produce Insecure Code? FormAI-v2 Dataset: Labelling Vulnerabilities in Code Generated by Large Language Models [3.4887856546295333]
この研究は、最先端の大規模言語モデル(LLM)の比較分析を提供する。
中立なゼロショットプロンプトを使って単純なCプログラムを書く際に、脆弱性が発生する可能性を分析する。
論文 参考訳(メタデータ) (2024-04-29T01:24:14Z) - Follow My Instruction and Spill the Beans: Scalable Data Extraction from Retrieval-Augmented Generation Systems [22.142588104314175]
本稿では,命令調整されたLMを組み込んだRAGシステムのデータストアから,命令追従機能を利用してテキストデータを冗長に抽出できることを,インプロンプトインジェクションにより示す。
ランダムに選択された25個のGPTに対して、100%の成功率でデータストアリークを引き起こす攻撃を設計する。
我々は,1,569,000語のコーパスから77,000語の本から41%の動詞率でテキストデータを抽出する。
論文 参考訳(メタデータ) (2024-02-27T19:08:05Z) - Retrieval-Augmented Data Augmentation for Low-Resource Domain Tasks [66.87070857705994]
低リソース環境では、データ拡張に使用するシードデータサンプルの量は極めて少ない。
本稿では、他のデータセットから豊富なサンプルを組み込むことで、トレーニングデータを増強する新しい手法を提案する。
このアプローチは、生成されたデータが関連性だけでなく、限られたシードデータだけで達成できるものよりも多様であることを保証する。
論文 参考訳(メタデータ) (2024-02-21T02:45:46Z) - AART: AI-Assisted Red-Teaming with Diverse Data Generation for New
LLM-powered Applications [5.465142671132731]
大規模言語モデル(LLM)のアドバイザリテストは、安全で責任のあるデプロイメントに不可欠である。
本稿では,新しい下流アプリケーション上でのLCM生成の安全性をテストするために,逆評価データセットの自動生成のための新しいアプローチを提案する。
AI支援のレッドチーム(AART)と呼ばれています。
論文 参考訳(メタデータ) (2023-11-14T23:28:23Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Grounded Keys-to-Text Generation: Towards Factual Open-Ended Generation [92.1582872870226]
そこで我々は,新しい接地型キー・ツー・テキスト生成タスクを提案する。
タスクは、ガイドキーと接地パスのセットが与えられたエンティティに関する事実記述を生成することである。
近年のQAに基づく評価手法に着想を得て,生成した記述の事実的正当性を示す自動計量MAFEを提案する。
論文 参考訳(メタデータ) (2022-12-04T23:59:41Z) - Towards Generating Real-World Time Series Data [52.51620668470388]
時系列データ生成のための新しい生成フレームワーク - RTSGANを提案する。
RTSGANは、時系列インスタンスと固定次元潜在ベクトルの間のマッピングを提供するエンコーダデコーダモジュールを学習する。
不足した値の時系列を生成するために、RTSGANに観測埋め込み層と決定・生成デコーダを更に装備する。
論文 参考訳(メタデータ) (2021-11-16T11:31:37Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。